互动 先见
+ - - - - - -
{{项目。标签}}
的见解

谷歌分析数据采样如何工作&你能做什么

目录


什么是数据抽样?

数据抽样是一种用于分析数据子集的过程,以便尝试并更快地理解整个数据集。

假设我的两个儿子把一万个乐高积木倒在他们卧室的地板上,我不去清理它,而是想确定有多少个红色的乐高积木。

假设所有的乐高积木都混在一起了,我可以把房间里的一小部分分离出来,然后数1000个。如果样本(子集)中有200个红色棋子,我就可以假设房间里总共有大约2000个红色棋子。

数据抽样是估计而不是计数。

与其强迫你花几个小时去筛选众所周知的乐高积木,你可以只看一小部分,然后对更大的积木做一些假设。

这里的好处和缺点应该是显而易见的。它明显更快,但牺牲了准确性。如果你有一个不均匀的分布,红色乐高积木的密度在房间里是不同的,那么你的样本可能无法解释它,你对红色乐高积木总数的估计可能会出错。或者如果你计算的数字太小,比如100个而不是1000个,那么你准确的机会也会降低。

谷歌分析数据采样的最佳解决方案是什么?

如果您想跳过学习,并在谷歌Analytics中获得数据采样的最佳解决方案,那么就不要再看了。答案是购买谷歌Analytics 360。Seer Interactive是谷歌Analytics 360的经销商,我们可以帮助您获得GA 360,并为您提供产品支持。

不确定升级是否适合你?阅读更多有关与GA 360的不同之处而且谷歌营销平台从我们的分析博客


如何知道您的数据是否在谷歌分析报告中进行了采样?

粘贴图像0

粘贴图像0 4

粘贴图像0 2

谷歌分析中的抽样遵循上面列出的一般大纲,但根据你在谷歌分析的哪个部分,数据在做什么,你是否有GA 360等等,以不同的方式进行抽样。

在本指南中,您将了解谷歌分析可以对您的数据进行抽样的所有方式。我们还将向您展示,当抽样影响您分析数据的能力时,您可以做些什么。

虽然确切的抽样算法是一个谜,但我们知道它在您使用的日期范围内根据会话的每日分布进行抽样。

如果你看的是一个5天的时间段,并且会话的抽样为25%,那么它将从每天中提取25%的样本。每个查询都会因为抽样的产生而变化,并且根据所包含的会话和应用的日期范围,查询的速率也会因查询而异。

谷歌分析何时采样数据?

一般来说,谷歌分析样本在会话,而不是用户。还要记住,用户实际上指的是“浏览器”。尽管近年来跨设备归因有了长足的进步,但通常情况下,如果你用笔记本电脑访问一个网站一次,然后用手机访问一次,你就会被算作2个用户(2次会话)。

  • 假设一个人访问你的网站100次(通过一台设备),那就是100次会话。
  • 如果100个人每次访问你的网站1次,那就是100次会话。
  • 现在,如果有500万人访问您的网站,平均每个人访问2.3次,那么您将有大约11,500,000个会话(和5,000,000个用户)。

以最后一种情况为例,你的谷歌Analytics数据将使用1150万会话和基于这些数字的样本。不确定会话与谷歌分析的用户之间的差异?阅读我们的文章为什么谷歌分析范围很重要

谷歌分析中的默认报告从未采样*

许多人忘记(或不知道)的是默认报告,有时也称为标准报告,从未在谷歌分析中采样。

谷歌Analytics首先在访问表中捕获所有会话,该表存储每个会话的原始数据。然后,它创建该数据的加工表(也称为聚合表),以便让尽可能多的用户以默认报告的形式访问关键数据的快速未采样报告,甚至使用免费产品。

基本上,谷歌分析导航左侧的任何内容,默认情况下,在您的谷歌分析是一个默认报告。如果您导航到您的采集报告来调出源/介质报告,它应该作为默认报告,是未采样的。

这里有几个主要的例外。一个是如果你使用UTM覆盖功能,在一些谷歌广告报告中可能会有抽样。这不是一个常用的功能,所以它不会影响大多数用户。谷歌解释了如何标记你的谷歌广告最终url在这里。

另一个例外是当人们本质上使用谷歌分析界面在几乎任何方式来分析数据.下面是一些常见的事情,你可以做修改默认报告,这将触发抽样:

因此,当您可以查看您的Source/Medium报告并查看有多少会话来自有机谷歌搜索时,如果您想查看这些搜索中有多少来自移动设备,通过添加第二个维度,您将触发采样,并且默认报告将不再未采样。

获得如何在谷歌分析中创建自定义报告的完整概述在这里

谷歌分析报表的查询限制是什么?

最终,无论如何,对于任何日期范围,谷歌Analytics中的查询将为一个报告返回最多100万行。这是一个内置的系统限制,如果一个查询要返回超过这个值,它也会将所有多余的行聚集到“(other)”中。

谷歌Analytics报告中的(其他)是什么意思?

当你在谷歌Analytics报告中看到(其他)时,这是另一种形式的抽样,主要与所谓的“高基数维度”有关。谷歌分析中的维度是事物的各个方面(用户来自哪里,他们使用什么设备,他们浏览了什么页面),而指标是这些方面所做的测量(会话,页面浏览量,转换等)。

维度的基数是表示“有多少值”的一种奇特的方式。对于移动设备维度,基数为2,值为“是”或“否”。如果你的行为报告中列出了一个有1300个页面的网站,那么该维度的基数明显高于移动设备维度。

谷歌分析有基数限制。如果您超出了这些限制,即您为某个维度发送了比限制更多的惟一值,则新值将合并到标记为(other)的单行数据中。

如果您正在查看某一天,谷歌Analytics将引用您数据的每日处理表(为某一天创建)。如果您使用免费产品超过50,000个值(即行),或使用谷歌Analytics 360超过75,000行,您的额外行将滚入“(其他)”标签。

为了加快报告与更长的日期范围,谷歌分析还创建多天处理表,其中包含4天的数据。它们是从Daily Processed表中创建的。免费产品的限制增加到100,000行,谷歌Analytics 360的限制增加到150,000行。与以前一样,超过这些限制的值将被卷起为“(other)”。

(其他)和高基数如何影响我的报告

基数越高,可能丢失的信息就越多。通常高基数不是“自然”的,而是“人为”发生的原因。例如,一个网站可能只有1000个页面,但它在每个页面上都附加了一个参数,其中包含唯一的用户或会话代码。然后,如果他们有100万个用户,每个用户都有一个唯一的参数,没有从Pages维度中过滤出来,那么每个页面将是不同的行。

  • /帽子吗?用户= 1
  • /帽子吗?用户= 2
  • /帽子吗?用户= 3

在第一个5万次浏览量之后,使用免费产品,每一次浏览量都将被归类为“(其他)”。如果这发生在早上7点,那么在这之后一整天的浏览量都将变成(其他)。放入(other)中的内容不会使用一般采样方法那样的算法进行采样。这是一种先进先出的方法。

谷歌分析的采样阈值是什么?

谷歌分析的采样阈值(即限制)不同于您是否使用免费产品,或已购买谷歌Analytics 360。

如果您使用的是免费产品,在您查询的日期范围内,谷歌Analytics界面将对大约500,000个会话进行抽样。这种采样发生在属性级别。通过对属性进行采样,视图级筛选器不会影响样本量。

如果你使用谷歌Analytics 360,采样将在1亿次会话中开始,并且采样发生在视图级别。因此,视图级别的过滤器确实会影响样本量。

除了50万会话和1亿会话的差异之外,谷歌Analytics 360在这里的一个关键好处是在视图级别进行采样。它允许用户来创建视图级过滤器减少将被采样的会话的总“开销”。

例子:

  • 一个公司有5个不同的网站,这些网站之间有松散的联系。
    • 他们在所有5个网站上都有一个谷歌分析属性,每月总流量为5亿次。
    • 它们将每个网站置于单个属性中的单独视图下。
  • 看看网站A的视图,它每月接收4000万个会话,进行每月分析,样本将出现在PROPERTY级别的5亿个会话。
    • 立即导致0.01%的样本(或更糟)逐月查找。这将是完全无用的。

反例:

  • 同一家公司购买并建立了谷歌Analytics 360。
    • 他们现在在视图级别上进行抽样,而在查看网站A过滤视图时,他们能够逐月查看而无需任何抽样。
  • 采样首先发生在View级别,因此只考虑4000万个会话,而不是5亿个会话。
    • 月复一月考虑的是8000万次,而不是10亿次。

您是否利用谷歌Analytics视图过滤器来更好地报告?点击这里了解更多

如何检查你的点击谷歌分析

Admin & Property属性设置

要查看过去7天和30天的点击率,请转至Admin >属性>属性设置.向下滚动后,您应该能够看到点击量。

粘贴图像0 7

谷歌分析抽样是否影响数据工作室?

Data Studio使用与谷歌Analytics相同的采样行为。这意味着如果Data Studio中的图表为谷歌Analytics中的数据创建了一个临时请求,那么标准抽样规则将发挥作用。您不能在Data Studio中更改谷歌Analytics采样率,但可以选择更改“显示抽样”和抽样指示器

您是狂热的Data Studio用户并想知道如何避免Data Studio采样吗?阅读我们的文章在这里

谷歌分析抽样是否影响API?

核心报告API是在特定情况下采样的,适用于标准GA和GA 360用户。谷歌Analytics会实时计算维度和指标的特定组合。为了在合理的时间内返回数据,谷歌Analytics可能只处理数据的样本。

您可以使用采样级别(samplingLevel)参数来指定API中请求使用的采样级别。如果不提供此参数,则使用默认采样级别。

以下是可供查询的抽样水平:

  • 默认的-以平衡速度和准确性的样本量返回响应。
  • —以较小的样本量返回快速响应。
  • HIGHER_PRECISION-使用大样本量返回更准确的响应,但这可能导致响应变慢。请注意,在此设置下仍然可能出现采样,并且更高的精度不等于总精度。

如果您想查看您的数据是否被采样,报告中有一个名为“包含采样数据”的字段,当数据被采样时,该字段的值为“Yes”(如下例)。注意它下面有一个名为“Sample Percentage”的字段——这个字段显示了用于查询的会话的百分比,以及您遇到的抽样范围。

粘贴图像0 5

如何多渠道漏斗和归因报告抽样谷歌分析?

一个例外是多渠道漏斗和归因报告。这些总是在视图级别为每个人采样,视图级别的过滤器也会影响他们的样本大小。与默认报告一样,MCF报告总是从未采样开始,除非您以某种方式修改它们(通过更改回溯窗口、包含转换、添加段、二次维度等)。如果您确实修改了报告,无论您是空闲还是GA 360,它都会返回最大100万个会话样本。

如何在谷歌分析流可视化报告样本?

流程可视化报告总是在您考虑的日期范围内对最多100,000个会话进行采样。这导致流量可视化报告始终是更多的抽样,更不准确,比任何其他部分的谷歌分析数据。

特别是入口、出口和转化率可能不同于其他缺省报告,后者来自不同的示例集。

谷歌分析中的转换路径限制是什么?

在任何报告中都有200k个唯一转换路径的限制。额外的转换路径将滚动到(其他)。

如何解决数据采样问题?

自定义表谷歌分析360

自定义表谷歌Analytics 360用户可以克服高基数,以及谷歌Analytics的标准抽样的强大方式。从本质上讲,这是一种方法,您可以指定谷歌分析额外的指标,维度,细分和过滤器,以每日为基础处理未采样,就像创建默认报告的处理/聚合表一样。

一旦创建了自定义表,任何与该自定义表的一个子集相匹配的报表都将能够访问它以获得快速的未采样数据,就像默认报表使用已处理表一样。这包括当您使用API访问数据时。

自定义表与加工表之间的一个主要区别是,每天存储的惟一滚动数量的限制从75k增加到100万。自定义表中任何超过100万行的数据都将被聚合到(other)中。

例如,如果您定期查看以城市为主要维度,浏览器为次要维度的报告,查看会话、页面浏览量等,并获得抽样(因为使用了次要维度),您可以使用这些维度和指标创建一个自定义表,然后您将能够在默认报告中看到它未抽样(即使应用了次要维度)。

如果您喜欢在Page url中使用大量参数,并希望将它们保留在报表中,您可以使用该维度和相关指标创建一个自定义表,然后能够在默认报表中看到多达100万的唯一行,而不是75,000行。

并不是所有的指标或维度都可以包含在这些自定义表中,也不是所有的报告都可以从中受益。基于用户的段不能包含在自定义表中。此外,以下报告根本不能使用它们:流可视化、搜索引擎优化、多渠道漏斗和归因。

一旦创建,最多需要2天才能看到未采样的数据。终极谷歌分析将在自定义表创建之前填充30天的历史数据,而通常这也将在2天内到位,它可能需要多达40天来填充。

如果您使用谷歌Analytics API利用自定义表,则建议将API查询与您的自定义表定义完全匹配,以避免谷歌Analytics返回到标准聚合表数据,而不是自定义表。每个属性限制为100个自定义表。

您可以阅读更多关于自定义表的内容在这里在我们的GA 360专用博客上。

谷歌Analytics 360中的未采样报告

使用GA 360,如果您进入您的报告(例如,转到观众>概述),除了使用分段的特定情况外,您通常应该能够查看未采样的数据。

然而,即使在GA 360中,未采样数据也有一些限制。Analytics 360确实有一个采样阈值-它只是显著高于你正在使用的日期范围的视图级别的标准GA - 100M会话。360阈值也可以根据特定查询的配置方式进行设置。

但是,如果在GA 360接口中遇到大量流量的采样,仍然可以使用unsampled Reports查看未采样的数据。

要创建一个未采样的报告,您必须导出一个标准报告(将采样作为未采样的报告)。例如,如果您在“受众概述”报告中遇到抽样,您可以将其导出为“未抽样报告”,GA 360将自动开始处理未抽样的报告以供您访问。

粘贴图像0 6

您可以在界面中查看报告,导出数据,并安排它应该运行的频率。请注意,您可以选择将数据导出为CSV、TSV或TSV for Excel文件。

粘贴图像0 3

如果需要在界面中查看未采样报表,请进入“自定义>未采样报表”查看您的未采样报表。

粘贴图像0 1

你的公司或公司就在最近升级到GA 360,还不熟悉这些功能?读到未取样的报告

第三方解决方案能否解决谷歌分析数据采样?

虽然有一些解决采样问题的解决方案,但它非常耗时,而且非常需要手工操作。下面是在一定程度上使用第三方工具来解决抽样问题的一些方法。

  1. 获取未采样数据的第一种方法是选择较短的日期范围,即使这意味着多次提取数据。如果你想了解更多关于如何做到这一点的细节,并在Excel中分析数据,请点击我们的帖子如何避免谷歌分析数据采样使用Excel
  2. Unsampler可用于临时提取未采样的数据。这种方法与上面的方法类似。在幕后,这些工具将您的数据分解为更小的时间框架,然后将其聚合到一个范围-主要避免抽样(参见下面关于用户级数据的说明)。点击这里了解更多
  3. 为谷歌床单爱好者,您可以使用API手动将GA数据拉到单独的时间范围,然后使用公式或数据透视表将它们重新组合在一起(就像Unsampler在幕后所做的那样)。
  4. 最后,您可以使用数据仓库。通过数据仓库自动化,您基本上可以限制分析师提取、传输和加载数据以报告和分析数据所花费的时间。对于那些了解减少人们报告和分析重复数据集所需的时间和精力的重要性的人来说,这个重载解决方案是理想的。虽然这些解决方案往往成本更高,但BigQuery为GA 360用户提供了一种具有成本效益的查询数据的方法。在与GA 360的集成下,用户每月可获得高达500美元的免费使用积分。ga360的客户很少能超过这个信用额度。

现在,如果您在用户级别上执行分析,那么从多个数据提取中聚合数据就变得很困难。首先,复习一下:

在谷歌Analytics中,a会话在一个查看会话中对组件命中进行分组。这将跟踪一个完整的“会话”,从用户进入网站到他们离开,以及所有后续的点击。相比之下,用户根据用户聚合的会话和点击查看数据。

当从API批量提取数据时,用户级指标不可能是准确的,因为要分析用户行为,您需要随时间查看数据。这意味着如果您正在聚合用户维度/指标,则不能将小的日期范围再重新拼接在一起。

请参阅我们的博客文章谷歌分析范围了解更多。

如何确保谷歌分析数据的准确性

DO:尽可能使用标准报告

标准报告(列在左侧窗格中的受众、获取、行为和转换)在Analytics Standard和Analytics 360中都是未采样的。然而,如果你使用的是分段或二次维度,那就会遇到抽样。只要在GA标准报告中避免使用分段/二次维度,就不应该遇到抽样问题。这里需要注意的是,如果你在GA中使用utm覆盖功能,那么你可能会在一些谷歌广告报告中遇到采样。

应该:尝试更快的响应vs更高的精度

在对报表进行抽样时,可以通过改变样本大小来调整报表的精度和速度。有两种方法:

  • 更高的精度:使用尽可能大的样本量为您提供完整数据集的最精确表示的结果
  • 更快的响应:使用更小的样本量,给你更快的结果

将首选项切换到Greater Precision将导致更精确的数据拉取,尽管这可能需要更长的时间。

DO:首先要避免抽样

回避抽样的一种方法是一开始就不让它发生。你可能会说,这听起来像是一个伟大的乌托邦式数据梦——让我们看看在某些情况下如何才能最好地实现它。这里有一些方法来避免首先进行抽样:

  1. 只在较小的时间框架内提取标准GA报告——即在界面中自然可用的报告(源/介质,着陆页等)。
    • 请记住:默认情况下,这些报告不能进行采样(在正常的命中量下),因为在检索数据之前,它们由谷歌进行了预处理。当您开始添加次要维度、段和扩展数据范围时,就会遇到麻烦。
  2. 如上所述,您可以设置unsampling Reports,默认情况下它不能进行采样。
  3. 如果您将数据存储在BigQuery中,这本质上也不会被采样。

首先避免抽样可能是获得数据的全貌和不得不根据数据的一小部分来猜测总体性能之间的区别。

可以这样想——如果你的数据是一本书或一首歌,你一次只有其中的75、50或25%(注意顺序是随机的),你能说出故事中的所有角色是谁,或者音乐来自哪个艺术家吗?如果你不能自信地对一本书或一首歌做出这些假设和推断,为什么你对数据做同样的事情会感觉很好呢?

要:用更短的时间框架运行报告

如前所述,您将在您正在使用的日期范围的属性级别上对500k会话进行Analytics Standard采样。如果您使用较短的日期范围,则可能会在该时间段的会话低于500k阈值时避免采样。

话虽如此,这样做的一个主要缺点是,在较长的时间轴上,你失去了分析的能力。此外,运行多个数据提取并在事后聚合数据是一个繁琐的过程。

DO:创建过滤视图vs高级段

如果您确实需要使用一个分段,例如,分析通过Organic Search访问站点的用户的性能,您还可以创建一个带有视图级别过滤器的新视图,该视图只过滤Organic数据。这将允许您使用这个新视图来分析未采样的数据,因为它针对特定数据进行了筛选,因此会话应该大大减少。请注意,如果尝试在这个新视图中使用分段或二次维,仍然可能遇到采样。

这种方法的一个主要缺点是视图从创建之日起就开始收集数据,因此您无法在这个新视图中访问历史数据。

做:获得创意与谷歌标签管理器

您可以做的另一件事是在自定义事件中战略性地使用谷歌标记管理器(GTM)。这可以帮助你避免增加太多的点击。

例如,如果您总是使用Page作为次要维度,然后导致抽样,那么您可以将Page Path拉入作为大多数事件的事件标签,这样您就不必在报告中使用Page的次要维度(从而导致抽样)。

此外,如果在某些情况下,特定页面需要多次重新加载,从而增加点击量,则可以将页面设置为只加载一次,并在第10次加载后战略性地触发事件。


谷歌分析数据采样“解决方案”,我们不建议

虽然我们确实建议做一些事情来避免抽样,但也有一些事情根本没有任何意义,或者根据您的业务没有任何意义。我想强调我们不推荐的第一件事,如果上面还不清楚的话:

不要:使用抽样数据来做决定

根据上面的内容,这应该不足为奇,但如果你使用抽样数据,你就会陷入困惑和误解,在最坏的情况下,糟糕的决策可能会对你的营销分发、内容或活动创作,甚至是你的底线结果产生负面影响。通过上述选项来绕过抽样,我们希望您至少可以有一些选择,不必使用抽样数据。

不要:跟踪点击通过不同的谷歌分析属性

虽然将你的热门账户分散到多个属性中似乎是一个避开抽样的新想法,但在大多数情况下,这并不值得它带来的麻烦。

跨多个属性的跟踪只有在你的站点完全不连接、用户体验、跟踪需求和数据需求完全不同的情况下才有意义。

一个更简单的解决方案是为单个属性中的独特数据需求创建额外的谷歌Analytics视图。这比需要为多个属性连根拔起和/或使GTM设置复杂化要容易得多。

你知道升级到GA 360的另一个重要原因吗自动上卷报告?

不要:通过设置GTM字段降低采样率

谷歌让你可以通过a来降低抽样率要设置的字段,这将最简单地通过你的GA设置变量在GTM中完成。然而,我们不推荐这种方法(除非在最极端的交通示例中),因为这本身就利用了处理采样到跟踪级别的机会。

上面列出了大量的抽样选项(如果你有超高的流量水平,主要考虑GA 360),选择这个选项从一开始就会固有地扭曲你的数据。 订阅时事通讯

克钦独立军街
克钦独立军街
市场部高级经理
詹姆斯。柯尔
詹姆斯。柯尔
Assoc。数字测量解决方案总监
米歇尔·努南
米歇尔·努南
数字测量解决方案高级主管

我们乐于帮助像您这样的营销人员。

注册我们的通讯,接收更新和更多信息: