SEO Power BI数据清理和准备清单的url
进入数据可视化以发现新机会并加速分析?我也是!但是在通过url连接数据集的过程中,我学到了一些最佳实践。
什么时候需要通过URL连接?
下面是一些输出,我发现我通常在需要的URL级别上连接真的清理url,以确保我得到我的数据集的大图片视图:
- 谷歌分析
- 谷歌搜索控制台
- Adwords
- 尖叫的青蛙
- 统计
- SEMrush
- AHREFs
当你在处理大数据时,不值得走捷径,也不值得从混乱的url中错过连接。我还需要继续吗?
Power BI(或任何Data Viz工具)的URL清理清单
☑️跳进Power BI查询编辑器,让我们开始吧!
刚接触Power BI?数字营销人员的强大BI(观看Wil Reynolds的第1课)
做一个重复的url列-可选
我更喜欢安全起见,并使我的原始URL列的复制列,然后转换副本。
为什么?因此,如果我在转换数据的方式上犯了错误或改变了主意,我可以再复制一份,然后重新开始,而不是删除原数据上应用的步骤,从而可能影响另一列或图表。
步骤1:右键单击您的URL列,并选择复制列
小写小写小写
您正在使用混合大小写的url吗?我希望不是,但无论哪种方式,您的第一步都应该是将URL列转换为小写字母以防万一.
步骤1:右键单击URL列并选择变换>小写字母从下拉列表中。
清洁和修剪
- 的干净的查询返回删除了不可打印字符的原始文本值。右键单击URL列并选择将>转换为干净的从下拉列表中。
- 的削减查询从文本值的开头和结尾删除空白值。右键单击URL列并选择变换>修剪从下拉列表中。
协议
我喜欢通过用分隔符分隔列来分离协议——这样我就可以将列“分割”为协议和URL的其余部分,这样如果我想知道两者之间是否有重大差异,我以后就可以用切片器或饼图引用http和https。
步骤1:右键单击您的列,然后单击按分隔符分割列>。
- 您也可以点击分离柱在Home选项卡下的顶部导航中。
第2步:输入自定义分隔符://,并在每次出现分隔符时分割(技术上任何选项都可以在这里工作)。
您的URL列现在应该分成两列——一个包含协议,一个包含URL。
奇怪的东西附加到你的网址?
你并不孤单。
啊,可怕的“我url末尾的这个东西是什么?”显然,当一个数据集在url的末尾添加了一些奇怪的东西,或者当一些url以字符串结尾而另一些没有时,您无法完全识别。
下面是一些类似的例子:
- example.com
- example.com/index.php
- example.com/path
- example.com/path/index.php
你有两种方法可以摆脱它:
- 右键单击您的列并选择替换值将附加值替换为空白。
- 使用分离柱通过分隔符将其分割到另一列,使用该值作为分隔符。
参数
嘘。参数。我们可以通过规范化搜索机器人的方式删除参数,但这种方法不会考虑两者之间的差异唯一url的参数vs跟踪网址.
第一步:使用按分隔符分割函数并使用“?”创建包含参数的列以及URL的规范版本。
修剪后面的斜线
修剪后面的斜杠是必须的,但你不能在这里使用分割分隔符-如果URL上没有后面的斜杠,你只会删除最后一个路径。
要删除后面的斜杠,我们将使用一个公式,该公式将删除任何带有后面斜杠的url,并保留任何没有后面斜杠的url。
第一步:在添加一列选项卡上,选择格式> Trim
- 这将自动创建一个名为“修剪”。要输入公式,请选择右侧的齿轮插入修剪文本在你的应用步骤编辑公式。
步骤2:输入以下公式创建自定义列
Text.TrimEnd((列),“/”)
下一步:造一座桥
- 我们现在应该有原始URL列,协议列“干净”的URL列,参数列,以及将URL列。
跟上我们的步伐在YouTube上获取更多Power BI的好处!
现在你已经把你的url清理成规范的版本,你可能在你的edited列中有重复的url,这可能会阻止你通过这个列创建一个关系。要学习如何正确地清理列表和删除重复项——订阅下面,阅读我们即将发布的关于清理和删除数据的博客文章!