产品测试管理方法（产品经理如何实施AB测试）

呐伤已黯淡 2022-11-13 17:31:43

编辑导语：AB测试思想对于产品经理来说十分重要，本篇文章作者讲述了产品经理实施AB测试的具体方法，详细地讲述了AB测试的具体流程，以及其中的注意点，感兴趣的一起来学习一下吧。

如果你随便拿起一本产品经理相关的书籍，然后翻开来读的话，你会发现，它们都会不约而同地提到一个名词“AB测试”。

其中的“佼佼者”《增长黑客》，更是“有过之而无不及”，因为A/B测试的思想彻彻底底贯穿这本书：无论是UI元素(字体、颜色、布局)，产品功能，抑或是AARRR流程，都能看到A/B测试的影子。

这或许也是俞军在《俞军产品方法论》中写道“产品工作属于强实践性的社会科学”的一个原因吧。关于AARRR流程的介绍请参考这篇文章《产品是门高实践性学科》。

AB测试将分成两篇文章，分别将从产品和统计学两个方面介绍AB测试，适合想了解AB测试具体实施流程，以及探究AB测试背后统计学原理的同学阅读。

一、AB测试流程
下面以一个电商产品为例，介绍如何开展A/B测试。

1. 实验背景

背景：某电商app首页商品点击率较低，产品团队急需解决这个问题。

提出想法：产品团队通过用户调研、竞品分析、数据分析等方式找到了几个可能的问题，并针对这些问题给出了设计方案，具体包括使用推荐算法、增加商品展示数量、发放优惠券、增加购物清单功能等。

优先级排序：由于提出的想法较多，而现有的资源有限，因此需要确定优先级，选择优先级最高的想法进行实验。

比如可以按照“ICE评分体系”，即Impact（影响力，即想法对关心的指标的提升程度）、Confident（信心，想法提出者对想法产生预期影响的信心）、Ease（简易度，进行一项实验所需要的时间和资源）。

三项分别打分之后,再相加平均便得到一个想法的综合得分。通过评分后发现增加商品展示数量的优先级最高，因此选择这个想法进行实验。具体评分如下：

业务背景：商品展示页展示的商品数较少，产品团队希望通过增加商品展示数量提升转化率。

业务目的以及期望：希望通过商品展示页的改版(原先一次只展示一张图片，新的版本一次展示两张图片)，提升用户整体的点击转化率。

2. 实验设计
实验目的：通过商品展示页的改版，提升用户整体点击率。这里有两点需要注意，第一点是指标的选择，这里选择了点击率，可以了解一下常用的指标有哪些；第二点是预期值的确定，到底提升多少才能达到预期。以谷歌为例，他们认为2%就是一个很大的提升。这里我们采用谷歌的标准，即当实验组比对照组至少提升2%的效果。
实验受众：打开App首页的用户。
自变量：实验组展示改版后的电子商城首页，展示的产品更多，对照组展示改版前的首页。
自变量取值：商品展示页是否改版。
因变量：点击率（点击商品的人数占进入首页总人数的比例）。
3. 实验样本及实验时长的确定

AB实验需要用到随机抽样，也就是随机从产品的用户中选择一部分，那么要选取多少呢。

想象一下，某工厂刚生产了一万件零件，现在想要测试这批零件是否合格，那么要选择多少样本进行检测呢？一件、两件还是一万件？

选择的样本太少，恐怕没有说服力；选择的样本太多，成本又太高。最好的方法其实是在满足统计学意义后，样本要尽量的少。

下面的公式给出了样本数量的计算方式，如果你看不懂，可以直接略过，知道有方法计算就好。

为确定样本数量，我们先要确定三个值，即显著性水平或第一类错误概率alpha一般取值为0.05或0.1，第二类错误概率beta，一般取值为0.1或0.2，以及实际想要达到的效果，比如点击率提升2%。

其中，
Delta表示预期的提升，在这个例子中，我们期望提升2%；
sigma表示样本方差，在比率的情况下，sigma^2=p（1-p），p是样本的某一比率，比如现在首页产品的点击率为67%；
alpha第一类错误概率，一般取值为5%或1%；
beta第二类错误概率，一般取值为0.1或0.2；
z：正态分布累计概率为x时对应的分位数。

假设过去两周内，平均每天有50000人打开过我们的app，若分成了四组实验，每组实验的流量不一样，要保证获得流量最小的那组达到最小样本所要求的数量。

比如，流量最小那组占总流量的20%，即50000*20%=10000，而最小样本数量为26000，因此至少需要26000/10000=3天。由于周末会影响实验，所以一般会取整周时间；同时，要考虑节假日以及特殊的事件。
4. AA实验

AA实验：指的是实验组和对照组所执行的策略是一样的，用于判断分组方式是否引起显著的差异。如果A/A实验的结果也是显著的，说明实验方式本身会造成差异，因此A/B实验的结果应当结合A/A的结果做校正分析。如果A/A实验的结果不显著，那么A/B实验的结果无须校正。
5. 实验上线

实验上线分为两部分，第一部分是数据的获取。如果现有的数据能满足我们的实验需求，就不需要做什么；否则可能会增加数据埋点，以获取所需数据；第二部分是流量控制，让用户在进入首页时，划分到相应的实验组和对照组，比如根据用户ID的奇偶性分组。
6. 实验结果分析

在实验周期结束，拿到数据后，就需要进行数据分析，主要是计算统计值，以判断实验结果在统计学上是否具有显著性，从而进行决策。至此，一个完整的A/B实验流程结束。
二、后续：关于指标的选择
数据指标从业务上可以分为用户数据指标（比如日新增用户数、用户活跃率，用户留存率），用户行为数据指标（PV、UV、转化率）以及产品数据指标（GMV、客单价、复购率）；

数据指标从数学定义可以分为分布相关（平均数、中位数）、概率和比例（用户点击的概率）、比率（两个数做除法）及求和计数等。

在选择指标时，要保证选择的指标是一个具有高灵敏度的指标，这意味着这个指标可以捕捉到你所关心的变化。

同时，当你不感兴趣的事情发生时，指标不会发生很大的变化。

如果一个指标太敏感，那么它就不够稳健，因此在这两者之间有一个平衡点，你需要研究一下数据，找出要使用的指标。可以使用AA测试进行检验。

本文由 @Clarence 原创发布于人人都是产品经理，未经许可，禁止转载

题图来自 Unsplash，基于CC0协议
,