怎样验证数据是否满足正态分布(小白入门AB)
A/B Testing 离不开统计学知识,统计学中最重要的一点就是正态分布(normal distribution)
这是一张德国马克,大家可以看到中间还有一个数学图表,它就是伟大的数学家高斯发明的正态分布,所以也叫高斯分布。
这是一张典型的标准正态分布曲线,Y 轴表示随机变量, X 与曲线围成的面积就是发生的概率。
它有什么含义呢?拿一个实际例子来说,当我们对中国成年男性做一个抽样,我们会发现大多数集中在 167cm 左右。身高差 167cm 越多的人数越少,很高或很矮的人很少。简单地说,以 167 为中心身两边递减。这样的例子还有很多,比如医院开的化验单,上面写的正常区间,就是一个正常的区间分布,也是根据抽样计算的结果,它不是说在这个范围之外就不正常,只是对于大多数人群,所以通常也叫常态分配。这样的例子还有很多,如智力,体重,KPI 等等,所有的一切证明了中央极限定律,(普通人还是占大多数的)。
它的公式是概率密度函数:
z 值就是我们经常要用到的一个概率密度。
那它有什么用呢?它的应用范围很广,只要我们想知道所有伴有随机因素影响的数据时,都可以用它得到一个相对精确的概率,比如我们要做的一个页面实验,可能受到人群,UI, 时间,网络等等因素影响,如果我们抽样得到其中一个指标,并用上面的公式计算一下,你会发现它也是一个非常典型的正态分配曲线,随着样本的增多,曲线会越来越光滑。曲线 X 轴中间是平均值,它的左右一个标准差之间的面积代表了机率是 68%,二个标准差之间是 95%,三个标准差是 99.7% 。所以如果我们想知道一个数据出现机率时,就可以用它来计算出来。
(好玩的是,如果我们统计一下我们的羽毛球选手获胜场次的挥拍数,也可以得到这么个曲线, 这样我们可以推算出大概他挥多少次拍会获得胜利。)
(在之后要提到的另一个概念置信区间,它就是根据这个规则,来限定 95% 作为我们合理的置信区间。落在其它区间的数据,我们认为它是不可信的,是小概率事件。这对于验证我们之前提到的第二种假设将会很有帮助。)
计算也非常简单,只要根据上面算出的 z 值,通过查表就可以通过百分比找到样本分数。有一个在线工具,大家可以试试。
t-分布上面提到的分布曲线都是标准的正态分布(也叫 u-分布),还有一种叫 t-分布,其实它也是正态分布的一种形式。可以应用在小样本来估算母体数据(全体数据)。
比如, 我们常听说的划分数线,也是利用了这个概率分布函数算出,百分之多少的人可以越过这个分数线。当然你可以说不如统计所有的分数,然后排序划百分比就行了,这确实是一个方法。不过万一我们要测量的这个数据量非常之大到呢,比如 TB 级的日志?
所以这时母群体的标准差是未知的,我们就可以运用 t-分布。在样本数量 n 比较小时,它的曲线往往比较平,随着样本量的逐渐增大,它会越来越接近标准正态分布。
上面的红线表示的是均值为-2,方差为1的正态分布曲线,蓝线表示的是均值为2,方差为4的正态分布曲线。从中可以看出,方差越小,图像越“瘦高”,方差越大,图形越“矮胖”。(方差越小,越靠近中位数)。方差小表示大家的平均值非常接近,反之离平均值越远。
t分布是一簇曲线,其形态变化与n(确切地说与自由度df)大小有关。自由度df越小,t分布曲线越低平;自由度df越大,t分布曲线越接近标准正态分布(u分布)曲线。
- t 分布是由英国著名统计学家哥色特发表,其笔名是“Student”,所以该分布又称为“Student t分布”。该分布的公布,标志着小样本统计推断的开始。
- 那有什么生活形态中,不是正态分布的呢?比如基尼指数,穷得越穷,富得越富,中间的反而很小。LOL
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com