abtest测试教程(ABTest名词梳理绝对干货)

置信度、置信水平(也称置信水平、置信系数、统计显著性),指实验组与对照组之间存在真正性能差异的概率,实验组和对照组之间衡量目标(即配置的指标)的差异不是因为随机而引起的概率置信度使我们能够理解结果什么时候是正确的,对于大多数企业而言,一般来说,置信度高于95%都可以理解为实验结果是正确的因此,默认情况下,「A/B测试」将置信水平参数值设置为95%,我来为大家科普一下关于abtest测试教程?下面希望有你要的答案,我们一起来看看吧!

abtest测试教程(ABTest名词梳理绝对干货)

abtest测试教程

置信度、置信水平

(也称置信水平、置信系数、统计显著性),指实验组与对照组之间存在真正性能差异的概率,实验组和对照组之间衡量目标(即配置的指标)的差异不是因为随机而引起的概率。置信度使我们能够理解结果什么时候是正确的,对于大多数企业而言,一般来说,置信度高于95%都可以理解为实验结果是正确的。因此,默认情况下,「A/B测试」将置信水平参数值设置为95%。

置信区间(Confidence interval)

由样本统计量构造的总体参数的估计区间。

  • 如果在95%置信度下,置信区间同为正或者同为负,说明实验结果是统计显著的。

  • 如果在95%置信度下,置信区间为一正一负,说明实验结果是非统计显著的。

    统计正向显著

    如下图所示,表明实验版本样本均值对比对照版本的变化率为 17.395%。在95%置信度下,置信区间为[16.86%,17.929%],统计显著正向,说明当前的样本容量条件下已经检测出实验版本优于对照版本。

    统计负向显著

    如下图所示,表明实验版本样本均值对比对照版本的变化率为-33.240%。在95%置信度下,置信区间为[-33.575%,-32.906%],统计显著负向,说明当前的样本容量条件下已经检测出实验版本在核心指标上劣于对照版本。

    不显著

    如下图所示,表明实验版本样本均值对比对照版本的变化率为-0.550%。在95%置信度下,置信区间为[-1.4595%,0.358%],置信区间一负一正,实验结果是非统计显著的。

    原假设

    原假设(null hypothesis):是实验者想要收集证据予以反对的假设。A/B实验中的原假设就是指“新策略没有效果”。

    备择假设

    备择假设(alternative hypothesis):是实验者想要收集证据予以支持的假设,与原假设互斥。A/B实验中的备择假设就是指“新策略有效果”。

    方差

    方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。方差是数据组中各数据值与中心值M间距的平方和的平均值。

    方差的计算公式:公式中M为数据的平均数,n为数据的个数,s²为方差。

    标准差(Standard Deviation),又称均方差

    标准差是方差的平方根,即s。

    P-VALUE

    在原假设为真的前提下随机抽取样本出现极端情况的概率。当p-value<1-置信度水平,认为统计显著。

    判断两个不同版本的实验结果之间不存在显著差异的概率。在A/B测试中,统计效果不显著意味着两个不同版本的实验结果之间不存在显著差异,也就是说版本A和版本B之间没啥太大的区别。

    通常情况下,如果“p-value >α(显著水平)”, 表示两个不同版本不存在显著差异,A和B没差。

    如果“p-value <α(显著水平)”,就表示存在显著差异。一般来说,我们期待并设置的最大的显著水平为5%,p-value < 5%,A与B就是有区别的。

    显著性水平

    所谓显著性水平,可以认为是一个临界水平,我们拿某次实验得到的实际的p-value与该显著性水平下理论上应该是多少的p-value的临界值进行比较。如果实际的p-value比临界值上的p-value低,则说明结果显著,如果实际的p-value比临界值上的p-value高,则说明结果不显著。

    power(统计功效)

    当两个不同版本之间存在显著差异时,实验能正确做出存在差异判断的概率。可以理解为我有多少的把握认为版本之间有差别。举个例子,路人甲的实验显示,power(统计功效)为92%,那么就可以理解为有92%的把握认为版本A和版本B之间是有差别的。

    该值越大则表示概率越大、功效越充分。一般来说,我们期待并设置的最低的统计功效值为80%。

    正态分布

    二项分布

    伯努利分布 在一次试验中,事件A出现的概率为p,不出现的概率为q=1-p。若以β记事件A出现的次数,则β仅取0,1两值,相应的概率分布为:

    二项分布是指在只有两个结果的n次独立的伯努利试验中,所期望的结果出现次数的概率。在单次试验中,结果A出现的概率为p,结果B出现的概率为q,p q=1。那么在n=10,即10次试验中,结果A出现0次、1次、……、10次的概率各是多少呢?这样的概率分布呈现出什么特征呢?这就是二项分布所研究的内容。

    MDE

    MDE:Minimum Detectable Effect最小可检测单位(检验灵敏度),当前条件下能有效检出指标置信度的diff幅度。

    差异绝对值

    当前实验版本相对与对照版本的绝对差异。

    差异相对值

    当前实验版本相对与对照版本的绝对差异/基准版本值。

    指标

    在开一个实验时,目的是对比对照组和实验组的某个或者某几个指标。如:CTR。

    核心指标

    用来决策实验功能是否符合预期的「直接效果指标」 也叫「成功指标」。只可以设置一个指标为某个实验的核心指标,可在实验报告里面查看实验数据。比如一个关于引导页按钮文案优化的实验,该按钮点击的「转化率」即可作为该实验的决策指标。

    注:比如开设「按钮文案」的优化实验,那么「按钮点击率」就是该实验的核心指标。

    一般常见的核心指标,如下:

    ①转化率、uv/au类,如留存率;

    ②人均次数类,如pv/au、pv/uv、sum/au、sum/uv;

    ③平均值类,如sum/pv;

    必看指标

    必看指标:必须守护的业务线指标,实验功能可能对其无直接的因果关联、无法直接带来提升,但一般而言不能对其有显著负向影响。

    注:若某个指标被设置为必看指标,则该应用下的每个实验都会默认选择该必看指标为实验关注指标。

    中心极限定理

    中心极限定理(CLT)是统计学中的一个基本定理,它是一个非常简单的概念。当你进一步阅读时就会发现,这也是一个很重要的概念。在阅读任何其他正态分布之前,必须了解一个先决条件概念,请阅读我关于正态分布的文章彻底理解正态分布——强大的数学分析工具,它是中心极限定理的完美前传。

    中心极限定理的准定义是:

    中心极限定理(CLT)指出,如果样本量足够大,则变量均值的采样分布将近似于正态分布,而与该变量在总体中的分布无关。

    ROI(投资回报率)

    投资回报率(ROI)是指通过投资而返回的价值,即企业从一项投资活动中得到的经济回报。它涵盖了企业的获利目标。利润和投入经营所必备的财产相关,因为管理人员必须通过投资和现有财产获得利润。投资可分为实业投资和金融投资两大类,人们平常所说的金融投资主要是指证券投资。

  • 免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

      分享
      投诉
      首页