人类优生意识的来历(出生以来受到最大的误会)

引言

2019年3月20日,《Nature》杂志发表了一篇题为《scientists rise up against statistical significance》的文章,旨在号召科研工作者放弃“统计显著性”。为啥?因为每当大家看到P<0.05时,都迷之自信地得出“A与B有联系”或“A与B有差异”等类似的结论。

原文如下:

人类优生意识的来历(出生以来受到最大的误会)(1)

我想很多读者看到这里都会不禁吐槽:

“不说差异具有统计学意义、具有统计显著性,那我文章要怎么写?”

好吧,问题来了,P值<0.05具有统计学差异,那你能解释一下P值是什么吗?

所以说P值到底是什么》应该怎么解释?

Р值即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的Р值,一般以P<0.05为有统计学差异,P<0.01为有显著统计学差异,P<0.001为有极其显著的统计学差异。其含义是样本间的差异由抽样误差所致的概率小于0.05、0.01、0.001。

用实证语言就是指所以拒绝原假设,接受备择假设。

那么为什么是0.05而不是其他数字呢?

0.05这个值是著名的统计学大神R·A·费希尔(Fisher)花了很大篇幅讨论出来的,可以去翻这些文献

Fisher, R. A. (1925). Statistical methods for research workers. Genesis Publishing Pvt Ltd.Fisher,

R. A. (1956). Statistical methods and scientific inference.Fisher,

S. R. A. (1960). The design of experiments (Vol. 12, No. 6). Edinburgh: Oliver and Boyd.

上古教材看起来真累人,就懒得引用和翻译了,有兴趣可以去看看,比如最后一本里面的第9章关于显著性检验的讨论。

对P值的误区

P值出现的近90年来,统计学家们对P值批评就没停止过。有人甚至把P值被比作即恼人又不赶不走的蚊子,有明显问题而每个人都忽略的皇帝的新衣以及强奸了科学但又没结果的强奸犯的工具。有人建议重新命名这个计算P值的统计方法学为「统计假设推断检验」,也许更能代表P值的本质。

具有讽刺意味的是英国的统计学家 Ronald Fisher (大拿啊)在20世纪20年代第一次引入P值时,他老人家并未想把P值作为一个解析结果决定性指标。他本想提出一个判断数据是否有显著的一个非正式简单指标,看一下结果是否值得再研究一下。大拿 Fisher 认为应先进行一个实验,看结果与可能产生的随机结果是否一致。研究人员应首先提出一个「零假设」,然后验证两组之间有无相关性或者差异性。假设这个零假设是真实的,那么计算得到的结果与事实的符合概率,这个概率就是P值。Fisher老人家同样认为,P值越大结果越与事实相距更远。

对于P值的精确性,Fisher 认为它是变化的而固定不变的,P应是结合数据分析结果和背景知识产生科学结论。但是P很快就卷入了一场风波,事情还要从另两位统计界大拿波兰数学家 Jerzy Neyman 和英国统计学家 Egon Pearson 说起。20世纪20年代大家正在寻找一个循证决策更严谨客观的指标。Neyman 和 Pearson 提出了数据分析的可选择框架,包括统计强度,假阳性和假阴性,以及其它我们现在统计课上经常听到的很多统计学概念。但是他们刻意忽略了P值,因为这两位和 Fisher 不怎么对付,相互看谁谁也不顺眼。

双方就开始掐架,Neyman 称 Fisher 的数学一无是处,而 Fisher 认为 Neyman 做法很幼稚,简直是对西方的自由科学是个危害。他们掐架归掐架,其他研究人员看不下去了,大家还等着一个统计学指标呢,到底该用哪个啊?这些研究人员的耐心也有限,于是乎他们就不管上面三位统计大拿了,开始自己为研究人员编写统计手册。这些研究人员也很乖,编写统计手册的时候谁也不得罪,把上面三位的统计理念进行了融合。这也就成了P值为0.05代表了统计学有显著性差异。这些人还挺聪明的,但是是个小聪明,因为他们并不是统计学家,没能完全理解 Fisher 和 Pearson 等人方法的内涵就进行生搬硬套。因此现在Goodman说「现在P值的使用方法完全背离了它曾经的意义」。

可见单纯看P值来判断变量的重要性是非常片面的。

基于目前对P<0.05的过分追求和对P>0.05的错误理解,

最新一期《美国统计学家》杂志发表专刊,呼吁建立一个没有“P<0.05”的世界,号召大家放弃“统计显著性”的说法。

我们并不是呼吁废除P值”,也不是“引领大家步入一个低质证据突然变得可信的世界”,而是“呼吁停止用P值来制定一个二分类的、非黑即白的分界线以此决定一个实验结果是否拒绝或支持某个科学假设”

放弃“统计显著性”之后怎么办

放弃了“统计显著性”,那接下来该怎么办?这次统计学家们没有像以前一样调皮说“我也不知道了”。

1. 描述P值时应以连续变量来描述,提供具体数值,而不是以P>0.05等分类形式来呈现。例如:p=0.049999或p=0.050001,而不是p<0.05或p>0.05。

2. 用“兼容区间”来替代“置信区间”,防止对试验结果过分自信的解读。这是因为“兼容区间“是基于统计假设来计算的,区间内的所有数值都与数据合理兼容,尽管兼容性有所差异(点估计兼容性最大,与点估计值距离越远的数值兼容性越小)。

3. 明确分析过程中的各种统计假设和不确定因素,并用多种合理的统计模型分析一个问题,并呈现所有分析结果,而不是只展示你所感兴趣(经常是所谓的阳性)的结果。

总的来说,不可能存在一个放之四海而皆准的方法来判断统计推断与科学假设是否相符。废除“P<0.05”这一所谓的“统计显著性”有利于科研工作者正视研究中所有不确定因素的存在,从而时刻保持怀疑和思考,将精力放在思考如何控制不确定因素、如何设计更严谨的研究方案、如何有效落实研究方案、如何确保数据质量、如何把研究结果和早期研究结果相联系做进一步的合理解释,并保持开放和谦逊,公开所有的结果,了解并清楚认识到研究自身的局限,接受同行的评议。

最后用Pearson的话来结束今天的显著性争议:

“实际中只有凭借经验才能确定显著性检验在频率意义上的结果是否显著。总之,我们得到的结论,既依赖于对类似事物的直接经验,也依赖于我们对观测效应如何产生的一般性理解。潜在假定的引入,只会掩盖这一事实:真实知识的产生过程其实是试探性的。”

人类优生意识的来历(出生以来受到最大的误会)(2)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页