互动 先见
+ - - - - - -
{{项目。标签}}
的见解

当没有足够的流量进行A/B测试时该怎么办

所以,你是死亡对一个你认为可以改进的网站/产品/应用程序/功能进行A/B测试。但是用户流量如此之低,以至于在统计上运行测试似乎是不可行的。

你遇到过这种情况吗?如果没有,我相信它仍然会。不过别担心。继续阅读这篇文章,了解在这些情况下该怎么做。

不幸的是,对于那些想要运行a /B测试的人来说,一个非常常见的限制是可用的参与者数量。换句话说,访问你正在运行测试的网页、功能等的流量。

这是因为,与任何严肃的科学实验一样,A/B测试需要最少的参与者数量(或流量)才能获得可靠的结果。否则,你可能只凭偶然得出结论。只是简单的抽签运气问题。

什么是“可靠的”测试结果?

在本文中,我的目标不是详细介绍统计数据(考虑到我甚至不是统计学家)。但过一会儿,我将不得不提到几个重要的概念,以防止实验中的暴行。

其中一个概念是统计显著性.这是一个通常在a /B测试工具中表示为百分比的数字,范围从0到100%。

显著性决定了在a /B测试中确定的控制(“a”)和变化(“B”)的转化率之间的差异是“真实的”,而不仅仅是偶然的百分比值。

(从技术上讲,这个概念比这更乏味。但这对本文来说并不是必需的。)

某些行业标准倾向于认为当测试结果的统计显著性等于或大于95%时,测试结果是“可靠的”。这意味着有5%的概率结果只是运气问题……或者缺乏它。

运行一个可靠的a /B测试需要多少流量?

这是一个经典的问题,通常会得到令人沮丧的回答:这取决于

要运行A/B测试并获得可靠结果,不需要确切的访问者数量。这是因为测试所需的人数取决于几个变量。

让我用例子来解释一下主要的原因:

1.转化率

您希望优化的转化率越高,最终运行测试所需的流量就越少。

方法查看此示例VWO计算器

我们要优化的页面日访问量为1000次,转化率为2%。在所示的场景中(我将在下面解释另一个重要变量),我们将需要103天(或103K人次)得出可靠的结果一个永恒!

但看看当我们优化一个转化率为10%的页面时会发生什么:

仅仅因为这是一个转化率较高的页面,测试持续时间(即它需要统计的访问量)急剧下降到29天(29K人次)

2.A和B的区别

A和B之间的转化率差异越大,获得统计显著结果所需的访问次数就越少。让我们再举一个例子。

注意这句话,“你想要检测的转化率的最小改善":

“10%”意味着测试变体需要将其转化率比原始页面提高至少10%,以便在上述场景中获得可靠的结果。任何低于10%的改善将不会在同一时期(或相同流量)被检测到具有统计有效性。

当我们希望能够检测到5%的转化率增长时,情况会发生变化:

这个测试所需的时间从29增加到115天(11.5万人次)

另一方面,如果我们只对能够检测到20%或更多的转化率增长感兴趣,那么所需的时间/流量会发生什么变化:

这是正确的。如果我们提高20%的转化率,我们需要只有7天得到一个具有高统计意义的结果。

因此,您在检测转化率改进时所选择的详细程度是决定运行测试可行性的重要因素。

下面,我们将详细介绍如何明智地使用这个变量。

3.统计显著性

进一步说,我们的行业认为统计显著性是“可靠的”(结果不是纯粹的运气/不幸的可能性)为95%。

但重要的是,95%的税率只不过是一个“共同协议”。它没有什么神奇之处,你不应该盲目地观察它。例如,一些世界上最好的测试公司对他们的大多数测试非常满意,这些测试的显著性为90%,甚至更低。

这完全取决于你想要依靠测试结果承担多大的风险。通常,机会成本太高,无法期望达到95%的显著性水平。

但如果您正在运行的测试将为公司的战略决策提供信息,那么您可能需要更高的统计显著性。

换句话说,如果你正在测试一个广告的副本,你有一定的风险承受能力。如果你正在测试一种新型癌症诊断,你的耐受性会发生变化。95%显著性只是一个基准,但它有一定的灵活性。

好的。视情况而定。但是有参照点吗?

我希望上面的练习已经向您展示了测试所需的流量可以有多大的变化。在同样的测试中,我们计算出的访客数量在11.5万到不到7000人之间。

我知道“视情况而定”的答案并不能安抚任何人。所以,我将给你一个一般的参考点:一个测试往往是可行的接口,可以提供至少几千个月访问和100个转换每个版本(a, B, C等)。

但是,最好的方法还是使用计算器就像我给你看的那个评估你的特定场景。

不是每个人都能运行A/B测试。但每个人都可以做CRO。

正如我们所看到的,不是每个人(也不是网站/产品的每个领域)都为a /B测试做好了准备。但是请不要混淆。

你不能做A/B测试并不意味着你不能做CRO。

CRO的整个诊断过程和建立假设和改进接口的最佳实践同样适用。唯一的区别是,最终你将无法轻松地通过A/B测试来验证结果。

能够运行测试是理想的吗?当然可以。我不会撒谎。正如我在以前的文章中所展示的,在评估变更的结果时,没有任何方法能像A/B测试那样准确。

但是你可以使用一些有趣的策略来解决A/B测试的不可行性。

让我们最终找到他们!


低流量策略#1:

利用你的漏斗转换顶部

在一个完美的世界里,你用尽可能与盈利能力密切相关的指标来衡量你的实验的影响。在电子商务领域,这就是收入或交易。在B2B中,更像是表单完成或合格的线索。

但问题是:转换在漏斗中越深,它发生的越少。这意味着——你知道的——进行可靠的测试就越困难。

但是,拥有较少的底部漏斗转换并不是不运行测试的理由。你仍然可以从漏斗的早期阶段测试中获得各种好处,在这个阶段,转化率自然会更高。

例如,电子商务网站不能使用“添加到购物车或者开始检验而是作为一个目标。

尽管这不是一个完美的场景,但在漏斗的一个阶段和它的后续阶段之间通常存在相关性。

低流量策略#2:

使用尽可能少的变量

当我们兴奋地为a /B测试组合一个新的网页版本时,变化的想法很常见,很快就会把a /B测试变成a /B/C, a /B/C/D, a /B/C/D/E/F/G……Z测试。对吧?

毕竟,你做的蓝色按钮换成紫色不是更好看吗?而下面的图片,在X或Y版本中不是更好吗?等等。

许多和我一起工作过的人都知道,我总是坚持要远离这种诱惑。原因很简单。

变化越多,测试需要的流量就越多,才能达到统计显著性。

在下表中,看看在一个转化率为5%的网站上,10%的增长需要多少流量才能达到95%的统计显著性:

正在测试的版本 95%的显著性需要流量
2 (A / B) 61000年
3 (A / B / C) 91000年
4 (A / B / C / D) 122000年

新页面的版本X、Y和Z之间的变化通常很小,对于99.9%的网站来说,并不代表结果有任何相关的改进。

如果你的流量很低,一定要考虑使用这种策略。尽量将测试限制在两个版本:最初的而且的变体

显然,有时候有很好的理由去运行A/B/C或A/B/C/D测试。例如,当变体的不同版本之间的用户体验确实存在显著差异时。

但是,请注意,在大多数情况下,在A/B测试中添加更多变体通常是浪费时间和金钱。

低流量策略#3:

用扎实的推理来增加你的机会

在一个低流量的网站上,你不能。”登陆Booking.com“并在每天的所有时间同时运行1000个测试。你的步伐需要慢一点。因为你不能在一年中进行那么多的测试,所以每一个测试都很重要。

因此,始终要确保测试想法得到了分析数据、受众访谈和用户调查等的支持。这将增加积极结果的机会。

并不是说考试不及格是一件可怕的事情。即使是执行得最好的测试也可能失败。但它们仍然可以产生与你从许多获胜测试的结果中所学到的一样有价值的见解(如果不是更有价值的话!)。

但如果你每年只做几次测试,你可能无法承受90%的测试失败……所以请记住这一点!

低流量策略#4:

运行更积极的测试

在流量很小的情况下,您无法运行只会将转化率提高0.5或1%的微小更改的测试。

请记住,对转化率的影响越低,就需要更多的流量才能达到统计显著性。所以要大胆尝试更激进的改变。

谷歌或Facebook只是简单地将按钮从颜色X改为颜色Y,并设法提高转化率,这是非常有趣的例子。但是在一个较小的站点上,如果您运行这种类型的测试,很可能无法识别任何更改。

(除非你的按钮的当前颜色确实会让用户体验变得困难,但通常情况并非如此。这通常是一种像颜色心理学那样的争论,会导致未来的不确定测试。)

这种影响太小,无法用统计学意义来确定。

相反,把第三个策略和这个结合起来。找出那些导致你的访问者没有转换的问题或不确定性。试着通过改变来解决这些问题,让那些以前不会购买的人有足够的影响力。

使用这种策略,当你真正做到正确时,对转化率产生重大影响(即达到统计显著性)的几率要高得多。

低流量策略#5:

定性地验证您的更改

如果你的流量很低,即使在实现了上面的想法后也无法运行测试……你可以借鉴下面的练习。

  • 创建你的变体
  • 招募一些用户通过它(我们喜欢usertesting.com!)
  • 检查您所计划的是否真的发生在这些用户身上
  • 询问有关他们经历的详细问题

另一个更具可扩展性的选择是在A/B测试中发布你的变体所有用户需要经历一段时间。这样,您就可以通过分析工具(如谷歌Analytics)和会话记录(如Hotjar)记录他们与页面的交互。

测试仍然不会达到统计显著性,但您至少可以获得一些关于用户与新页面交互的体面数据,以尝试收集见解。

需要明确的是,上述两种方法在准确性方面都无法与A/B测试相媲美而且可靠性。

但是如果您没有足够的流量进行测试,那么遵循这些方法至少会比简单地发布您的更改并希望它们能够正常工作更有效。

低流量策略#6:

重新考虑一个可接受的统计显著性

正如我们上面所看到的,95%的统计显著性水平是一个行业“标准”,但它并不是神奇的。你不必盲目地坚持。

在实践中,您必须遵循关于测试结果做出决定的规则是:统计显著性越低,结果纯属偶然的风险就越大。

从广义上讲,如果你的获胜变体达到了80%的显著性水平,那么出现“错误”结果的几率是20%。如果你愿意冒险,那就去冒险吧!承认获胜的变体,永久发布它,并继续进行下一个测试!

总之

通过遵循本文中的策略,许多乍一看“不可测试”的网站、产品和细分市场可能会继续使用实验,以一种更加数据驱动的方式来提高性能,而不是简单地做出改变,然后看看会发生什么。

如果像大多数公司一样,你的流量无法与大型科技公司几乎无限的流量相比,那么试着确定你需要做什么来获得流量尽可能地接近你实验中的科学方法。

你经常会想出解决方案,帮助你做出更明智的决定,即使它并不总是“黄金标准”。尊重科学家的内在!

额外CRO资源

继续阅读Seer关于UX、实验和测试的内容:

寻找代理合作伙伴?

请与我在Seer的团队联系,讨论如何转化率优化可以增加收益,提高转化率等等。

联系我们查看案例研究


注册我们的通讯,在您的收件箱中查看更多CRO文章:

订阅时事通讯

拉斐尔Damasceno
拉斐尔Damasceno
导演,阴极射线示波器

我们乐于帮助像您这样的营销人员。

注册我们的通讯,接收更新和更多信息: