互动 先见
+ - - - - - -
{{项目。标签}}
的见解

SEO Power BI数据清理清单的url

SEO权力BI数据清洗和准备清单的url

为了寻找新的机会和加速分析而进入数据可视化领域?我也是!但是我在通过url连接数据集的过程中学到了一些最佳实践。

什么时候需要通过URL进行连接?

以下是我发现我通常在需要的URL级别上连接的一些输出真的清理url,以确保我得到我的数据集的大图片视图:

  • 谷歌分析
  • 谷歌搜索控制台
  • 谷歌广告
  • 尖叫的青蛙
  • 统计
  • SEMrush
  • AHREFs

当你在处理大数据时,走捷径是不值得的,而且可能会从混乱的url中丢失连接。我还需要继续说下去吗?

Power BI(或任何数据可视化工具)URL清理清单

进入Power BI查询编辑器,让我们开始吧!

刚接触Power BI?和威尔·雷诺兹一起看第一课

创建一个重复的url列可选

我更喜欢安全起见,制作原始URL列的复制列,然后转换副本。

为什么?因此,如果我犯了一个错误,或者改变了我对数据转换方式的看法,我可以再做一个副本,然后重新开始,而不是删除我在原始数据上应用的步骤,这样可能会影响到另一列或图表。

第一步:右键单击你的URL列,选择复制列

PBI URL数据清洗1

小写小写小写

您正在使用混合大小写的url吗?我希望不是,但无论如何,您的第一步应该是将URL列转换为小写以防万一

步骤1:右键单击URL列并选择转换>小写从下拉菜单中。PBI URL数据清洗

清洁整洁

  • 干净的查询返回删除不可打印字符的原始文本值。右键单击URL列并选择变换>清理从下拉菜单中。
  • 削减查询从文本值的开头和结尾删除空白值。右键单击URL列并选择变换>修剪从下拉菜单中。

2 .粘贴图片

协议

我喜欢用分隔符分隔列来分隔协议——这样我就把列“分割”成协议和URL的其余部分,这样如果我想知道两者之间是否存在主要差异,我就可以稍后用切片器或饼图来引用http和https。

步骤1:右键单击您的列,然后单击拆分列>按分隔符。

  • 你也可以点击分离柱在Home选项卡下的顶部导航栏中。

PBI URL数据清洗3

第2步:输入自定义分隔符://,并在每次出现分隔符时进行分割(从技术上讲,这里应该使用任何选项)。

PBI URL数据清洗4

您的URL列现在应该分成2列——一个包含协议,一个包含URL。

奇怪的东西附加到你的url ?

你并不孤单。

啊,可怕的“我的url后面是什么?”显然,您无法完全识别一个数据集何时在url的末尾添加了一些奇怪的东西,或者某些url在末尾添加了字符串而另一些没有。

下面是一些例子:

  • example.com
  • example.com/index.php
  • example.com/path
  • example.com/path/index.php

你可以通过以下两种方式摆脱它:

  • 右键单击您的列并选择替换值将附加的值替换为空白。

PBI URL数据清洗

  • 使用分离柱使用该值作为分隔符,将其拆分为另一列。

PBI URL数据清洗3

参数

嘘。参数。我们可以通过规范化搜索机器人的方式删除参数,但这种方法不会考虑到两者之间的差异唯一url参数vs跟踪网址

第一步:使用按分隔符分隔函数并使用“?”创建一个包含参数的列以及URL的规范版本。

PBI URL数据清洗6

修剪那些后面的斜杠

修剪尾斜杠是必须的,但是你不能在这里使用split by分隔符——如果URL上没有尾斜杠,你就会去掉最后一个路径。

要删除尾斜杠,我们将使用一个公式,该公式将使用尾斜杠修剪任何url,并保留任何没有尾斜杠的url。

第一步:在添加一列选项卡上,选择格式>修剪

PBI URL数据清洗7

  • 这将自动创建一个名为“修剪”。要输入公式,请选择右侧的齿轮插入的修剪文本在你的应用步骤编辑公式。

PBI URL数据清洗8

步骤2:输入以下公式创建自定义列

Text.TrimEnd((列),“/”)

下一步:做一座桥

  • 我们现在应该有原始URL列,协议列“干净”的URL列,参数列,和将URL列。

PBI URL数据清洗9

赶上我们在YouTube上获得更多Power BI的好处!

现在您已经将url清理为规范版本,您的修剪列中可能有重复的url,这可能会阻止您通过该列创建关系。学习如何正确地清理列表和去重复项订阅下面阅读我们即将发布的关于清理和删除数据的博客文章!

注册时事通讯

克里斯蒂娜•布莱克
克里斯蒂娜•布莱克
团队领导,产品

我们喜欢帮助像您这样的营销人员。

注册我们的时事通讯以获取更新和更多信息: