3d006期数据分析(概率破玄机统计解迷离)

3d006期数据分析(概率破玄机统计解迷离)(1)

3d006期数据分析(概率破玄机统计解迷离)(2)

作者 | 严加安

感谢严加安院士授权本号刊载。

原文见严加安院士的科学网博客

http://blog.sciencenet.cn/u/yanjiaan

概率论起源于中世纪的欧洲,那时盛行掷骰子赌博, 提出了许多有趣的概率问题。当时法国的帕斯卡、费马和旅居巴黎的荷兰数学家惠更斯都对此类问题感兴趣,他们用组合数学研究了许多与掷骰子有关的概率计算问题。20世纪30年代柯尔莫哥洛夫提出概率公理化,随后概率论迅速发展成为数学领域里一个独立分支。

3d006期数据分析(概率破玄机统计解迷离)(3)

安德列·柯尔莫哥洛夫(1903年4月25日-1987年10月20日),20世纪苏联最杰出的数学家,也是20世纪世界上为数极少的几个最有影响的数学家之一。

随机现象背后是隐藏某些规律的,概率论的一项基本任务就是揭示这些规律。现在概率论已经发展成为数学领域里一个相对充满活力的学科,并且在工程、国防、生物、经济和金融等领域得到了广泛的应用。

统计学是一门具有方法论性质的应用性科学,它在概率论基础上,发展出一系列的原理和方法,研究如何采集和整理反映事物总体信息的数字资料,并依据这些复杂的数据(称为样本)对总体的特征和现象背后隐藏的规律进行分析和推断。

法国数学家拉普拉斯有句名言:“生活中最重要的问题,绝大部分其实只是概率问题。”当代国际著名的统计学家C.R.劳说过:“如果世界中的事件完全不可预测的随机发生,则我们的生活是无法忍受的。而与此相反,如果每一件事都是确定的、完全可以预测的,则我们的生活将是无趣的。”

我长期从事概率论和随机分析研究,对概率论和数理统计学科的本质有些领悟,曾写过下面这首“悟道诗”:随机非随意, 概率破玄机;无序隐有序, 统计解迷离。

3d006期数据分析(概率破玄机统计解迷离)(4)

本文试图通过若干日常生活中的一些例子来向大家展示概率是如何破玄机和统计是如何解迷离的。

1

什么是随机和随意?

在社会和自然界中,我们经常遇到一些事件,因为有很多不确定的偶然因素很难判断它会发生或不发生,这样的事件就是所谓的随机事件或偶然事件。概率则是对随机事件发生的可能性大小的一个度量。必然要发生的事件的概率规定为1,不可能发生的事件的概率规定为0,其他随机事件发生的概率介乎0与1之间。例如,抛一枚匀质的硬币,出现正面或反面的概率均为二分之一;掷一个匀质的骰子,每个面出现朝上的概率均为六分之一。在这两个例子中,每个简单事件(或“场景”)都是等可能发生的。一个复合事件(如掷骰子出现的点数是偶数)发生的概率就等于使得该复合事件发生的场景数目与可能场景总数之比。

什么是随意?随意就是带有主观意识的一种随机。比方说,我们知道掷一枚匀质硬币出现正面或反面的概率都是1/2。如果让某人臆想一个相继掷50次硬币的可能结果,并用1和0分别表示出现“正面”和“反面”,在一张纸上写下来,由于他考虑到接连多次出现正面或反面的可能性较小,在他写1和0时,可能有意识避免连写三个或四个以上的1或0,这样产生的0-1序列就是“随意的”,它看似随机,但与真实作一次掷50次硬币记录下的结果在统计特性上是有区别的。

2

靠直觉作判断常常会出错

下面是一个靠直觉作判断容易出错的例子。某人新来邻居是一对海归夫妇,只知道这对夫妇有两个非双胞胎孩子。某天,看到爸爸领着一男孩出门了,问这对夫妇的另一孩子也是男孩的概率是多大?许多人可能给出的答案是1/2,因为生男生女的概率都是1/2。但实际上正确答案应该是1/3,因为在已知该家至少有一男孩的前提下,他家两个小孩可能的场景是三个(按孩子出生先后次序):“男男”“男女”“女男”。只有“男男”才符合“另一孩子也是男孩”这一场景。如果突然从这家传出婴儿的啼哭声,“另一孩子也是男孩”的概率就变成1/2了,因为这时可以断定出了门的那个男孩是老大,可能的场景就变成两个了(按出生先后次序):男男,男女。

从这两个简单初等概率问题可以悟出一个道理:靠直觉作判断常常会出错。计算一个随机事件发生的概率,重要的是要对此事件得以发生的所有可能场景有正确的判断。

3

“生日悖论”

N个人中至少有两人生日相同的概率是多少? 这是有名的“生日问题”。令人难以置信的是:随机选取的23人中至少两人生日相同的概率居然超过50%, 50人中至少两人生日相同的概率居然达到97%!例如,假定一个中学有二十个班,每个班平均有50个学生,你可以调查一下,大概会有十几个班都有至少两个相同的生日的学生。这和人们的直觉是抵触的。因此这一结果被称为“生日悖论”。

其实有关概率的计算很简单,首先计算50个人生日都不相同的概率。第一个人的生日有365个可能性,第二个人如果生日与第一个人不同,他的生日有364个可能性,依次类推,直到第50个人的生日有316个可能性,所以50人生日都不同的可能组合方式就是365×364×363×···×316,但由于每个人是生日是独立的,总的可能组合为36550,这样一来,50个人生日都不相同的概率就等于两个组合数之比,这个概率非常小,只有3%,所以至少两个人生日相同的概率等于1减去3%,得到97%,这样概率就计算出来了。

注意:如果预先选定一个生日,随机选取125人、250人、500人、1000人,出现某人生日正好是选定生日的概率分别大约只有 30%,50%,75%,94%,比想象的小得多。

4

“三枚银币”骗局

某人在街头设一赌局。他向观众出示了放在帽子里的三枚银币(记为甲、乙、丙),银币甲的两面涂了黑色,银币丙的两面涂了红色,银币乙一面涂了黑色,另一面涂了红色。游戏规则是:他让一个观众从帽子里任意取出一枚银币放到桌面上(这里不用“投掷银币”是为了避免暴露银币两面的颜色),然后由设局人猜银币另一面的颜色,如果猜中了,该参与者付给他1元钱,如果猜错了,他付给该参与者1元钱。试问:这一赌局是公平的吗?从直觉上看,无论取出的银币所展示的一面是黑色或红色,另一面是红色或黑色的概率都是1/2,这一赌局似乎是公平的。但实际上不公平,设局者只要每次“猜”背面和正面是同一颜色,他的胜算概率是2/3,因为从这三张牌随机选取一枚银币,其两面涂相同颜色的概率就是2/3。如果有许多人参与赌局,大概有1/3的人会赢钱,2/3的人会输钱。

5

在猜奖游戏中改猜是否增大中奖概率?

这一问题出自美国的一个电视游戏节目,问题的名字来自该节目的主持人蒙提·霍尔,20世纪90年代曾在美国引起广泛和热烈的讨论。假定在台上有三扇关闭的门,其中一扇门后面有一辆汽车,另外两扇门后面各有一只山羊。主持人是知道哪扇门后面有汽车的。当竞猜者选定了一扇门但尚未开启它的时候,节目主持人去开启剩下两扇门中的一扇,露出的是山羊。主持人会问参赛者要不要改猜另一扇未开启的门。问题是:改猜另一扇未开启的门是否比不改猜赢得汽车的概率要大?正确的答案是:改猜能增大赢得汽车的概率,从原来的1/3增大为2/3。这是因为竞猜者选定的一扇门后面有汽车的概率是1/3,在未选定的两扇门后面有汽车的概率是2/3,主持人开启其中一扇门把这门后面有汽车给排除了,所以另一扇未开启的门后面有汽车的概率是2/3。

也许有人对此答案提出质疑,认为在剩下未开启的两扇门后有汽车的概率都是1/2,因此不需要改猜。为消除这一质疑,不妨假定有10扇门的情形,其中一扇门后面有一辆汽车,另外9扇门后面各有一只山羊。当竞猜者猜了一扇门但尚未开启时,主持人去开启剩下9扇门中的8扇,露出的全是山羊。显然:原先猜的那扇门后面有一辆汽车的概率只是1/10,这时改猜另一扇未开启的门赢得汽车的概率是9/10。

6

如何设计对敏感性问题的社会调查?

设想要对研究生论文抄袭现象进行社会调查。如果直接就此问题进行问卷调查,就是说要你直说你是否抄袭,即使这样的调查是无记名的,也会使被调查者感到尴尬。设计如下方案可使被调查者愿意作出真实的回答:在一个箱子里放进1个红球和1个白球。被调查者在摸到球后记住颜色并立刻将球放回,然后根据球的颜色是红和白分别回答如下问题:你的生日是否在7月1日以前?你作论文时是否有过抄袭行为?回答时只要在一张预备好的白纸上打√或打×,分别表示是或否。假定被调查者有150人,统计出有60个√。问题:有抄袭行为的比率大概是多少?已知:P(红)=0.5,P(√|红)=0.5,P(√)=0.4, 求条件概率 P(√|白),用贝叶斯公式算出的答案是30%。

这一例子是对“无序隐有序,统计解迷离”的一个很好解读。

7

如何理解社会和大自然中出现的奇迹?

对单个彩民和单次抽奖来说,中乐透头奖的概率大概是2250万分之一。到2008年,在“纽约乐透”史上发生过3次有一人中过两次头奖的事件。在河北省著名旅游景点野三坡的蚂蚁岭左侧,断崖边缘有一块直径十米、高四米的“风动石”,此石着地面积不足覆盖面积的1/20,尤其基部接触处只有两个支点。这也算是一个奇迹。

从概率论观点看,上述两个奇迹的发生并不奇怪,因为即使是极小概率事件,如果重复很多次,会有很大概率发生。假设一事件发生概率为p, 重复n次还不发生的概率为 (1-p)^n,当n足够大,这一概率就很小,从而该事件发生的概率为1-(1-p)^n就变得很大了。大自然中的奇迹是地壳在亿万年的变迁中偶然发生的,但这种奇迹在历史的长河中最终出现是一种必然现象。

8

辛普森悖论

分组对比中占优总体上一定占优吗?答案是:不一定!下面是一个例子。假定有两种药(A和B),要通过分组临床试验对比其疗效。以下是试验结果的统计表:从甲乙两组试验结果看,药物A的疗效都优于药物B,但总体来看,药物B的疗效反而优于药物A。

3d006期数据分析(概率破玄机统计解迷离)(5)

早在20世纪初,当人们为探究两种因数是否具有某种相关性而进行分组研究时就发现了这种现象:在分组比较中都占优势的一方,在总评中反而是失势。直到1951年英国统计学家辛普森在他发表的论文中才正式对这一现象给予理论解释。后人就把这一现象称为“辛普森悖论”。

9

“统计平均”的陷阱

下面这个例子在现实生活中更加典型,它是“辛普森悖论”的一种表现形式。假定有一公司现有员工100人,另有一研究所,职工150人。在一次普查体检中,发现公司有糖尿病患者16人,研究所有糖尿病患者36人。从糖尿病患者的患病率来看,研究所的情况比公司严重,其患病率分别是24%和16%。但实际情况恰恰相反,这怎么可能呢?

现在我们换一种统计方式来考察结果,分成年轻人(24-45岁)和中、老年人(46-65岁)两个组来计算患病率。该公司有90位年轻人,其中患糖尿病12人(患病率13.3%),有中、老年人10人,其中患糖尿病4人(患病率40%);该研究所有50位年轻人,患糖尿病4人(患病率8%),有中、老年人100人,其中患糖尿病32人(患病率32%)。后一种统计方式的结果表明,公司的人,无论是年轻人还是中、老年人,患糖尿病的比例都显著高于研究所的相应人群。这一分组统计结果比总体统计结果更有说服力。

10

“抽样调查”的陷阱

在做抽样调查时,如果数据的采集缺乏代表性,可能导致错误的结论,下面是一个著名的例子。在1936年美国大选中,罗斯福总统以62.5%的得票率获胜连任,击败了共和党候选人兰登。在选举前,1935年才由美国统计学家盖洛普创立的美国民意研究所,只用了5万多个调查问卷,便成功预测了罗斯福会赢得大选(尽管后来实际得票率比预测高了约7%)。与此成鲜明对照的是,老牌的著名杂志 《文学文摘》依据高达约240万份的问卷调查结果,却预测兰登将以57%对43%的绝对优势大胜罗斯福。选举后不久,《文学文摘》由于这一重大丑闻就倒闭了。

《文学文摘》的预测为什么会失败?问题就出在抽样调查样本的代表性有严重偏差。首先,该杂志寄出了大约一千万份问卷,选择的对象主要来自杂志的订户和一些俱乐部的会员,这些人大都相对比较富裕。当时美国刚从经济大萧条中恢复,富人比较倾向支持兰登,而穷人较多倾向支持罗斯福。另外,问卷的回收率太低,只有 24%,这进一步降低了样本的代表性,因为收入较低者回答问卷的比例通常要比收入较高者低。

该例子说明,在做统计调查时,要精心设计好方案。例如,采用分层抽样,并随机选择调查对象,这样才能使抽样调查的样本具有代表性。

:本文是笔者的《数斋随想》(科学出版社,2017)书中一篇同名文章的节选。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页