分析

5方法Unsample你的谷歌分析数据

你已经取样。

数据抽样是统计建模中使用的一种技术,它允许分析人员利用较小的一部分数据代表更大一部分的数据。虽然这并不总是一个坏主意,但这是你应该做的总是在分析谷歌Analytics的数据时注意。


为什么要关心数据是否抽样?

把这个场景:你需要比较今年迄今为止付费用户转化率与去年迄今为止的转化率。容易,对吧?你添加支付交通片段,导航到收购报告在谷歌Analytics和

你可以报告目标完成的增加+ 14%同比!

你进一步深入,添加高级过滤器以便了解特定的目标url是如何执行的。

注意到你的数据有什么不同吗?惊喜!你已经取样。

现在,当你注意到年转化率的百分比变化时,你会发现付费流量有所下降-3%。

但是等等,这怎么可能呢?你只是据报道增加了+ 14%...

您决定单独查看数据-删除比较期间,因此日期范围仅为2017年1月1日- 2017年7月1日。以下是你记录的内容:

2017财政年度(转换)

  • 所有用户: 522620
  • 支付交通:345474年

接下来,你复制你的选项卡,改变日期范围到2016年1月1日- 2016年7月1日,并注意一些奇怪的事情:

2016财政年度(转换)

  • 所有用户:509469年
  • 支付交通:303942年

支付交通做了(2016年为303,942,2017年为345,474)。那之前发生了什么当你相比使用谷歌Analytics日期工具的日期范围?

简而言之,谷歌Analytics认为通过两个部分(所有用户vs.付费流量)查看数据是一个特别的查询,因此需要抽样。为什么?因为比较两个日期范围会增加总会话数(超过采样阈值500000年)。

如果您使用的日期范围的会话数量超过Property类型的阈值,则特别查询将受到抽样的影响。

简而言之,你只是看到了你网站数据的一部分——你并没有得到你的表现的全貌。

跳出我们的场景,你可以看到为什么这是a巨大的报告网站指标时的问题。如果你使用谷歌Analytics报告收入或目标价值抽样数据可能对您的业务更不利。

你的数据有被采样的风险吗?

截至2017年7月,谷歌Analytics采样的阈值是500000届在给定日期范围的属性级别。

与上面的场景非常相似,抽样可能会导致数据差异,从而导致不准确的性能度量。虽然我们很容易将数据切片来获取敏锐的洞察力,但请阅读下面的建议,避免一些偷偷摸摸的细微差别,比如抽样。


推荐在谷歌分析中对抗数据采样的方法

现在你知道了为什么如何数据采样可能会影响你的数据,我们自己的Seer Analytics团队有一些对付它的建议:

# 1:我们的Chrome扩展

使用Chrome扩展,由我们的内部开发人员创建,斯蒂芬•哈里斯,闪过。”采样,在GA中对应的图标旁边(如下所示)。

# 2:Unsampler工具

这个漂亮的工具推荐的帕特里克·斯特里克勒最适合用于临时抽取未抽样数据。首先,连接到GA并配置报告以最适合您的分析。

接下来,生成报告并等待unsampler.io以验证谷歌的请求。一旦完成,选择复制/粘贴你的未采样数据或下载到一个文件,以进一步分析(Unsampler。支持导出Excel或CSV文件)。

在幕后,这个工具将你的数据分解成更小的时间段,然后将其聚合到一个范围内——完全避免了抽样。

# 3:谷歌分析API集成

另一种避免与采样相关问题的方法是通过谷歌Analytics电子表格插件-注意,这个是高级的。你可能需要我们!)这是我们经常使用在Seer中查询谷歌Sheets中的Analytics API中的数据。

如果你想了解更多关于这个集成的知识,读这篇文章的基础知识。

为了避免采样,可以手动将GA数据拉入单独的时间范围,然后使用公式将它们重新组合在一起(就像Unsampler在幕后所做的那样)。

它可能看起来不是提取数据的首选方式,但请相信我们,当您想要最终控制报告和挖掘时,API是最好的选择自动化重复的东西

如果希兹不是你的菜,那就去吧这个老帖子Michelle Noonan的文章中详细介绍了如何使用先进的Microsoft Excel公式取消数据抽样。

# 4:谷歌分析360

如果你想“花钱玩游戏”,那就进行研究谷歌分析360.这个产品最大的好处是它将采样阈值从500,000次提高到1亿年-允许您得到您的数据的真实图片。

谷歌的这个更强大的选项允许拥有更高点击率(如页面浏览量、事件等)的公司整合他们所有的数字营销解决方案,以实现更准确的报告,从而做出更好的决策。

不是ga360的客户,但想要升级?

不是ga360的客户,但想了解更多?

# 5:报告的自动化

就在几年前,数字营销中还不存在“数据仓库”这个热门短语。今天,这是公司努力追求的东西。

使用数据仓库自动化,您可以从本质上限制分析人员提取、传输和加载数据以报告和分析数据所需的时间。对于那些理解减少报告和分析重复数据集所需的时间和精力的重要性的人来说,这个重量级的解决方案是理想的。


你有没有试过我们的数据抽样解决方案?关于这个(或任何其他)分析问题还有什么问题吗?我们很乐意在下面的评论中看到,直接,或在推特上