什么是正态分布统计学(统计学重要支柱)
今天发扬一下科学精神,我们聊一聊正态分布。
1801年1月,意大利天文学家朱塞普-皮亚齐在天空中发现了一颗新星,但这哥们在夜空中出现6个星期、扫过8度角之后,就在太阳光下彻底消失了,再也观测不到。遗憾的是,当时皮亚齐留下的观测数据极为有限,所以也计算不出来新星的轨道,天文学家甚至无法确定这颗新星到底是行星还是彗星。不过天文学家虽然搞不定,但有一位数学家却对这个问题产生了兴趣,他就是数学王子——高斯。为了重新发现这颗新星,高斯直接创立了一种全新的星体轨道计算方法,短短一个小时之内,就计算出了星体的轨道,并预言了它在夜空中出现的时间和位置。算的对不对呢?1801年12月31日夜晚,德国天文学家奥伯斯在高斯预言的时间里,把望远镜对准了预言的位置,果不其然,这颗新星重新回到了人类视野,它就是人类发现的第一颗矮行星——谷神星。
皮亚齐
谷神星
如果说高斯之前只是在数学界如雷贯耳的话,那么从此开始,高斯在整个欧洲名声大震。而他所用到的数据分析方法,正是正态分布。事实上,高斯并不是发现正态分布的第一人,但正态分布无疑是因为高斯才被世人所知,于是正态分布也被称为“高斯分布”。当然了对于高斯这种数学天才来说,他的发现不胜枚举,一个正态分布算不上什么大事儿,但后人显然不这么认为,因为正态分布确实成为了一个强有力的数学工具,于是我们就发现,在10马克高斯头像的旁边,印的正是正态分布,而不是他引以为傲的正十七边形。那么正态分布究竟是个什么东西呢?不用慌,它其实非常简单。
10马克
其实客观地说,正态分布这个名字起的不是很好,让人有一种敬而远之的感觉,当然了这是翻译的问题,事实上,它的英文非常简单,就叫normal distribution,你听听咱这个苏格兰调情发音,直接翻译过来就是正常的分布,所以台湾省的翻译就比较直观了,人家就叫“常态分布”。也就是说,除了正态分布以外,其他分布都是特殊的,只有正态分布才是一般的、正常的和普遍的,既然如此,它的重要性就可见一斑了。
从形态上看,正态分布就十分简单,无非就是一条对称的钟形曲线,中间很高、两边下降,就像一个鼓起来的山包,或是鼓起来的其他东西,你懂的。横坐标代表随机变量的取值范围,越往右,随机变量的值就越大,越往左,随机变量的值就越小。而纵坐标则代表概率的大小,最下面的概率是0,越往上概率就越大。如此一来,在曲线上随便找一点,确定它的横坐标与纵坐标,我们就可以知道这个值出现的概率是多少。由于这条曲线是左右对称的,所以中间的最高点,就代表平均值出现的概率最大,数据最多,而两边呈陡峭下降趋势,就意味着越是靠近平均值,数据就越多,反之,数据就越少。可以说对于很多数值的统计,都呈现为典型的正态分布,比如说人的身高、体重、智商、考试分数、股票基金收益、公司收入,还比如说节目的收看数量,都符合正态分布,像是咱2049每期节目的播放量,估计就是在这条钟形曲线的最左边那部分,那些富有科学精神的,自然就在最右边,我们知道,左代表无产阶级,右代表资产阶级,他们是不具备革命性的。当然了这是我胡扯的。
正态分布曲线
好了接下来我们再进一步整点高端的。整体来看,正态分布有三大数学性质。
第一个性质是:均值就是期望值。也就是说,正态分布曲线中间最高点的横坐标,不仅代表着随机变量的平均值,而且也代表着它的数学期望,这一点已经得到了数学上的严格证明,至于是怎么证明的,打死我也不告诉你。我们知道,数学期望代表着长期价值,而现在平均是又是数学期望,所以在正态分布中,平均值就代表着随机事件的价值。
比如说一个小妹妹和我网聊,在没有奔现之前,她是不知道我身高几何的,于是她对我身高的期望值就是174cm,因为174cm正是辽宁省男性的平均身高。还比如说我们常用高考的平均分,来衡量一所高中的教学质量,为什么,原因也在于平均值就代表期望值,而期望值正代表着随机事件的长期价值,一个学校平均分总是600,那这个学校肯定不会差,但如果它只告诉你最高分,对平均分避而不谈,这就很有问题了。当然了还需要注意的是,只有在正态分布中,平均值才具有这样的意义,如果不是正态分布,平均值基本就不能说明什么问题了,比如说现在10个人组成一个团伙,我、黄博士、潘博士、士、再加5个要饭的和一个比尔-盖茨,这个群体的个人资产,显然不呈正态分布,那我告诉你,我们的平均资产是50亿美元,就没有任何意义。
正态分布的第二个性质是:极端值非常少。也就是说,大多数数据都集中在平均值附近,比如说还是刚才网聊那个例子,小妹妹对我身高的期望是174cm,那么在174cm上下浮动正是我最有可能的身高。同时也正是因为极端值非常少,所以极端值对平均值的影响也非常小,也就是说,正态分布非常稳定,不管姚明和潘长江是不是辽宁人,辽宁男人174cm的平均身高并不会产生什么变化,除非你像珠穆朗玛一样高,但这显然是不可能的,这还叫人么?这么高只能是科普人。
正态分布的第三个特征是:标准差或是说方差决定形状。可以发现,正态分布虽然都是钟形曲线,但形状是各不相同的,有的会矮胖一些,有的会高瘦一些,而造成这种差异的原因,正在于标准差的不同。高中数学告诉我们,标准差或是方差,可以描述随机变量的波动情况,标准差越大,数据波动越剧烈,反之,数据波动就越平缓。具体到正态分布中也一样,标准差越大,数据越是分散,波动越是剧烈,钟形曲线看起来就会更加矮胖。而标准差越小,数据就会更加集中,波动不怎么剧烈,钟形曲线就会更加高瘦。当然了这可能与你直观看上去有点出入,不过你仔细想想我想应该可以想明白,如果绞尽脑汁还是想不明白,简单,漂亮小妹妹可以来问我,我手把手教给你,嘴对嘴告诉你,那是一发入魂、终生难忘。
总之通过以上三大特征我们可以发现,平均值决定了正态分布曲线的最高点,平均差或是方差,决定了曲线的弯曲度,两个数据就可以确定曲线的形状,实在是不知道高到哪里去了。
好了一个正态分布我们可以对其进行分析,那么不同的正态分布曲线可不可以进行比较呢?当然是可以的。具体来看就是三种情况,一是方差相同、平均值不同,在这种情况下可以比较好坏,这很简单,比如说两所高中的高考分数,标准差一样,自然是平均分越高,教学质量越高。
第二种情况是平均值相同、方差不同,这种情况可以比较波动,比如有统计显示,男女智商的平均值是差不多的,但在正态分布曲线上,男性智商的曲线要矮胖一些,女性智商的曲线要高瘦一些,这就说明,虽然整体上看,男女智商没有高低之分,但男性智商值显然更加分散,波动比较大,极端数据存在的情况比较多。也就是说,男性智商超群的人要比女性更多,同样的,傻X也是男人更多,比如说我和黄博士,还有那些特别喜欢抬杠和认死理的键盘侠,我看基本都是男性,而在我接触的无数女性中,我就没有发现什么低智商。
第三种情况就是方差和平均值都不同,这就可以比较专业和业余了。比如说我和许海峰比赛射击,人家许海峰肯定是9环、10环、11环来回转,波动十分小,平均值非常高,直观表现就是正态分布曲线非常高瘦。我就完了,一会1环、一会2环,偶尔还能蒙个9环、10环,有时候还能打到裁判,所以我的成绩波动就十分大,同时平均值也非常小,直观表现就是曲线非常矮胖,恨不得平了。
好了最后一个问题,正态分布这玩意究竟有什么用?简单来说就是,它可以为我们提供一个估算个体在整体中位置的便捷方法,像智商、身高、体重、考试成绩等,只要服从正态分布,我们就可以快速得到答案。比如说我表弟今天高考,估分估了560,然后网上就会告诉他预计排名,那么哪些网站是怎么做到的呢?你可能会认为,它一定是收集了所有人的估分数据,然后得出答案,其实根本不用这么麻烦,再说了它也得不到所有人的数据,事实上,它只要得到一部分数据,然后通过平均值和方差构建出一个正态分布模型,就可以大致得出560分在全省的排名。还有一个应用我估计你每天都会遇到,这就是在电脑开机的时候,都会告诉你,啊,你的电脑太快了,打败了全国百分之90几的用户,用到的办法也是正态分布。再见。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com