常见的A/B测试误区分析：重复检验显著性

关注

来源： 339148 2019-05-13

避免重复检验显著性错误的最好方式就是不去重复地检验显著性。

常见的A/B测试误区分析：重复检验显著性

一、一种常见的A/B测试误区

如果网页正在运行A/B测试的时候，你时不时地去查看试验结果的显著性，你就会陷入误区。

统计学上，重复检验显著性是错误的行为。这样做的后果是，即使数据报告显示统计显著，实际上仍有较大可能性非统计显著。下面解释原因。

二、背景

当A/B测试的数据面板显示“95%可能性比原版本有提升”，或者“90%可能统计显著”，需要考虑如下的问题：假如A版本和B版本没有潜在的差别，我们能看到数据中显示出区别的可能性有多大？

这个问题的答案就是显著性水平，“统计显著的结果”意味着显著性水平数值比较小，5%或1%。数据面板一般会取补集（95%或99%），作为“优于原版本的概率”或类似的东西来报告。

然而，显著性水平的计算有严格的假设：样本数量的多少是事先指定的。你很可能违反了该假设而不自知。如果开始试验之前你没有“本次试验将采集1000个样本”这样的预期，而是打算“一看到统计显著的结果就结束”，那么上报的显著性水平将毫无意义。这一结论完全反直觉，大量A/B测试工具忽略了这一点。下面会用一个例子解释问题出在哪里。

三、例子

假设你在样本量达到200和500时对试验进行分析，4个可能发生情景如下：

常见的A/B测试误区分析：重复检验显著性

假设AB版本效果相同，显著性水平为5%，那试验结束时，我们有5%的可能性得到统计显著的结果。

而如果我们一观察到显著结果就停止试验，事情会像下面这样发展：

常见的A/B测试误区分析：重复检验显著性

第一行和之前一样，收集200个样本之后报告的显著性水平没啥问题。然而问题出在第三行，试验结束时，假设AB两个版本实际效果相同，我们得到统计显著结论的比例上升了。因此，显著性水平——用来衡量因为运气因素观察到区别的概率，将是错误的。

四、问题有多严重？

如果你的转化率是50%，想测试一下新的logo是否能把转化率提升到50%以上。你打算观察到5%级别的统计显著性就停止试验，否则在收集150个样本后停止试验。

假设新logo没有任何影响，得到错误的统计显著结果的概率有多大？不过5%？根据前面的分析，也许是6%？

结果是26.1%——比你预计的显著性水平的5倍还多。这是最差的情况，因为我们每收集一个新样本都检查统计显著性（也不是没有这样先例）。至少有一家A/B测试平台确实提供在出现统计显著就停止试验的功能。听起来这是个巧妙的花招，直到你意识到在统计学上这是恶习。

重复进行显著性检查总会增加虚报概率，也就是说会把许多本来非显著的结果变成显著（而不是反之）。只要你有“偷窥”数据，发现统计显著就结束试验的行为，该问题就会存在。偷窥地越频繁，显著性水平偏差越大。

例如，在试验过程中偷窥10次，表面上是1%的显著性实际上仅是5%的显著性。下面的表格展示了在有偷窥的情况下，数据报表中的显著性需要达到多少才能有实际上的5%显著性。

偷窥次数达到实际显著性水平5%时，所需要的报告显著性水平：

常见的A/B测试误区分析：重复检验显著性

看一下自己犯了多大的错误，如果你在A/B测试过程中不时地查看统计结果并快速的做决定，上面的表格会让你起鸡皮疙瘩。

五、应该如何做

避免重复检验显著性错误的最好方式就是不去重复地检验显著性。

事先决定样本数量，等试验结束后再去A/B测试软件中查看“优于原版本的概率”。如果你能抑制提前结束试验的想法，那中途偷窥数据也无妨。这有些反人性，所以最佳建议还是不要偷窥。

既然要事先决定样本数量，应该取多少呢？下面是经验公式：

常见的A/B测试误区分析：重复检验显著性

δ是能检测到的最小变化，σ是样本的标准差。样本的标准差可能不好预知，但是如果参与计算的样本取值是2值的（比如统计转化率），则有：

常见的A/B测试误区分析：重复检验显著性

保证样本的规模就能避免问题。

对A/B测试软件的建议：在试验结束之前不要报告显著性水平，不要用显著性水平来决定是继续试验还是停止试验。试验进行中不报告显著性水平而是报告目前样本数量能检测出多大的差别，计算公式为：

常见的A/B测试误区分析：重复检验显著性

两个t是给定显著性水平α/2和统计功效1-β的t统计量。

听起来痛苦，你甚至可以考虑把试验效果的“当前估计值”去除掉，直到试验结束再显示。如果该信息用于提前结束试验，则报告的显著性水平毫无意义。

如果你真想把这事做对：事先固定样本大小可能令人沮丧，如果改动后效果确实不错，难道不应该立刻部署吗？

这个问题长期困扰着医学界，因为医学研究人员通常希望在新的疗法看起来有效时停止临床试验，但是他们还需要对其数据进行有效的统计推断。下面是两种用于医学试验设计的方法，有些部分应该也适用于网页试验：

序贯分析试验设计：序贯分析试验设计让你可以预先设定检查点，决定是否继续试验，给出正确的显著性水平。
贝叶斯试验设计：贝叶斯试验设计让你可以随时停止试验并给出正确推断。实时反映网页试验的状态，贝叶斯方案看起来是未来发展方向。

六、结论

虽然数据面板看起来很强大和方便，但在进行中的A/B测试中被滥用。任何时候，当它们与手动或自动的“停止规则”结合使用时，显著性检验结果会无效。除非在软件中实现序贯分析或贝叶斯实验设计，否则任何运行网页试验的试验者都应该只在样本量已经提前固定的情况下进行试验，并且像虔诚的教徒一样坚持该样本量。

作者：祁永辉，微信：yonghuishuo，吆喝科技增长顾问，专注于A/B test相关知识分享

本文由 @祁永辉原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

爱盈利-运营小咖秀(www.aiyingli.com) 始终坚持研究分享移动互联网App运营推广经验、策略、全案、渠道等纯干货知识内容；是广大App运营从业者的知识启蒙、成长指导、进阶学习的集聚平台；

想了解更多移动互联网干货知识，请关注微信公众号运营小咖秀（ID: yunyingshow）

产品经理玩狼人杀不务正业？

狼人杀与产品经理有某些共通之处，或许，玩玩狼人杀可以提升产品能力，完善产品经理的能力体系。狼人杀，你所不知道的秘密！好处多多哟，客官，请细细品味！对产品经理的好处1.锻炼逻辑思维能力产品经理：逻辑思维能力的重要性，相信很多人都知道。多玩玩狼人杀，不失....

如何以产品的思维来跳槽

爱盈利（aiyingli.com）移动互联网最具影响力的盈利指导网站。定位于服务移动互联网创业者，移动盈利指导。我们的目标是让盈利目标清晰可见！降低门槛，让缺乏经验、资金有限的个人和团队获得经验和机会，提高热情，激发产品。本文作者将站在产品经理规划产....

不懂技术的产品小王，聊聊他的日常囧事

产品经理，尤其是B端产品经理，是需要懂技术的，否则在方案设计和方案取舍上以及和RD的沟通上，都会吃亏。下文模拟了两个场景对话，向大家演示了这个问题。情景对话1：RD和不懂技术的产品经理小王小王：一名工作1年的初级产品经理，非计算机科班出身，不懂技术。....

从产品经理到产品负责人，你缺的不仅是经验

身为产品经理的你，可能画了几年原型，写了几年文档，做了几年基础工作，也在这个过程中逐渐成长，并且即将面临着这职业的一个进阶，这时的你，是否还向刚入行时那样迷茫呢？对自己是否有一个准确的评估呢？2018年11月22日，是美国文化中的感恩节，于我而言，只....

如何输出一份高质量PRD？

笔者之前梳理过产品自查表，但是还是有很多小伙伴询问关于PRD的模板和资料。所以本文特地梳理了PRD的内容，希望能给你带来启发与思考。John之前梳理过产品自查表，但是还是有很多小伙伴经常问John关于PRD的模板和资料。所以我今天梳理下PRD的内容，....

十年互联网项目实战经验分享：项目经理成长之路的三个层次

网易项目管理专家雷蓓蓓老师，结合十年互联网项目摸爬滚打的实战经验，首次披露了从业多年来的诸多干货。项目经理要想在升职加薪路上走的更顺，核心要解决的是什么呢？就是怎么样去提升自己的核心竞争力，也就是升“值”。只有自身价值越来越多地体现出来，才能够得到更....

微信扫码登录

绑定手机号

注册

忘记密码

绑定手机号

常见的A/B测试误区分析：重复检验显著性

一、一种常见的A/B测试误区

二、背景

三、例子

四、问题有多严重？

五、应该如何做

六、结论

评论

相关文章推荐

产品经理玩狼人杀不务正业？

如何以产品的思维来跳槽

不懂技术的产品小王，聊聊他的日常囧事

从产品经理到产品负责人，你缺的不仅是经验

如何输出一份高质量PRD？

十年互联网项目实战经验分享：项目经理成长之路的三个层次

友情链接