SEO权力BI数据清洗和准备清单的url
为了寻找新的机会和加速分析而进入数据可视化领域?我也是!但是我在通过url连接数据集的过程中学到了一些最佳实践。
什么时候需要通过URL进行连接?
以下是我发现我通常在需要的URL级别上连接的一些输出真的清理url,以确保我得到我的数据集的大图片视图:
- 谷歌分析
- 谷歌搜索控制台
- 谷歌广告
- 尖叫的青蛙
- 统计
- SEMrush
- AHREFs
当你在处理大数据时,走捷径是不值得的,而且可能会从混乱的url中丢失连接。我还需要继续说下去吗?
Power BI(或任何数据可视化工具)URL清理清单
进入Power BI查询编辑器,让我们开始吧!
刚接触Power BI?和威尔·雷诺兹一起看第一课
创建一个重复的url列可选
我更喜欢安全起见,制作原始URL列的复制列,然后转换副本。
为什么?因此,如果我犯了一个错误,或者改变了我对数据转换方式的看法,我可以再做一个副本,然后重新开始,而不是删除我在原始数据上应用的步骤,这样可能会影响到另一列或图表。
第一步:右键单击你的URL列,选择复制列
小写小写小写
您正在使用混合大小写的url吗?我希望不是,但无论如何,您的第一步应该是将URL列转换为小写以防万一.
步骤1:右键单击URL列并选择转换>小写从下拉菜单中。
清洁整洁
- 的干净的查询返回删除不可打印字符的原始文本值。右键单击URL列并选择变换>清理从下拉菜单中。
- 的削减查询从文本值的开头和结尾删除空白值。右键单击URL列并选择变换>修剪从下拉菜单中。
协议
我喜欢用分隔符分隔列来分隔协议——这样我就把列“分割”成协议和URL的其余部分,这样如果我想知道两者之间是否存在主要差异,我就可以稍后用切片器或饼图来引用http和https。
步骤1:右键单击您的列,然后单击拆分列>按分隔符。
- 你也可以点击分离柱在Home选项卡下的顶部导航栏中。
第2步:输入自定义分隔符://,并在每次出现分隔符时进行分割(从技术上讲,这里应该使用任何选项)。
您的URL列现在应该分成2列——一个包含协议,一个包含URL。
奇怪的东西附加到你的url ?
你并不孤单。
啊,可怕的“我的url后面是什么?”显然,您无法完全识别一个数据集何时在url的末尾添加了一些奇怪的东西,或者某些url在末尾添加了字符串而另一些没有。
下面是一些例子:
- example.com
- example.com/index.php
- example.com/path
- example.com/path/index.php
你可以通过以下两种方式摆脱它:
- 右键单击您的列并选择替换值将附加的值替换为空白。
- 使用分离柱使用该值作为分隔符,将其拆分为另一列。
参数
嘘。参数。我们可以通过规范化搜索机器人的方式删除参数,但这种方法不会考虑到两者之间的差异唯一url参数vs跟踪网址.
第一步:使用按分隔符分隔函数并使用“?”创建一个包含参数的列以及URL的规范版本。
修剪那些后面的斜杠
修剪尾斜杠是必须的,但是你不能在这里使用split by分隔符——如果URL上没有尾斜杠,你就会去掉最后一个路径。
要删除尾斜杠,我们将使用一个公式,该公式将使用尾斜杠修剪任何url,并保留任何没有尾斜杠的url。
第一步:在添加一列选项卡上,选择格式>修剪
- 这将自动创建一个名为“修剪”。要输入公式,请选择右侧的齿轮插入的修剪文本在你的应用步骤编辑公式。
步骤2:输入以下公式创建自定义列
Text.TrimEnd((列),“/”)
下一步:做一座桥
- 我们现在应该有原始URL列,协议列“干净”的URL列,参数列,和将URL列。
赶上我们在YouTube上获得更多Power BI的好处!
现在您已经将url清理为规范版本,您的修剪列中可能有重复的url,这可能会阻止您通过该列创建关系。学习如何正确地清理列表和去重复项订阅下面阅读我们即将发布的关于清理和删除数据的博客文章!