实战统计数据(白话统计与实验分析)

最近准备公司内部的培训,系统地整理了下实验平台底层的统计学、数学基础。以讲历史、说白话的方式介绍给大家。

实验的历史

实验最早发生在农业领域(field experiment)之后在医学领域中通过随机双盲实验(Randomized double blind trial)进行药品研发,2010年由Google引入了互联网领域,标志就是Google发表的重叠实验框架论文(overlapping experiment Infrastructure-More, Better, Faster Experimentation)。

费希尔将科学实验方法引入农业领域,在瑞士洛桑农业观测站工作期间,通过方差分析对过去90年的农业观测数据进行分析,并纠正了过去不合理、不易于分析的实验方法,在收成研究、实验设计等作品中引入了科学实验的三个准则:

  1. 重复,通过不断地重复获取样本
  2. 随机化,实验对象和策略采用随机组合分配原则,通过随机可以消除所有已知未知因素的干扰,聚焦到我们的实验策略带来的实验效应
  3. 区组化,通过区组管理实验对象(样本),组间对比确认实验效应
实验分析

20世纪费希尔引入科学实验方法,统计学尤其是推断统计学中假设检验、参数估计在实验分析中广泛应用。

  1. 参数估计,卡尔·皮尔逊引入了均值、方差、峰度、偏度(皮尔逊发现了偏态分布)等统计参数并通过样本估计总体的参数值,费希尔将参数简化为均值和方差并引入了更多数学中概率论中的分布、概率密度等公式
  2. 假设检验,内曼和EG·皮尔逊整理前人发现系统提出了假设检验的方法,假设检验包括我们希望证伪的零假设,以及我们想证明的备择假设,使用检验方法计算样本的显著性水平,通过小概率事件的发生推翻零假设/原假设
  3. 检验方法,主流的检验方法有戈赛特提出的T检验、费希尔的F检验、皮尔逊的卡方检验等,所有检验方法都有对应的概率分布、概率密度函数、概率累积函数等公式,通过样本统计量计算统计分数,查询概率表获取当前实验的置信度p-value
统计学的发展

20世纪,统计学的四大天王带动了整个统计学的发展成熟:

  1. 卡尔·皮尔逊,在高尔顿的生物统计期刊和实验室工作期间,定义了偏态分布,并引入了统计参数,主张通过大量样本来估计总体;提出拟合优度检验,并发展为卡方检验用来计算观测分布和预期分布的差异
  2. 罗纳德·费希尔,将大量数学公式引入统计学,发表了《研究工作者的统计方法》;通过几何公式解释了相关系数;继承孟德尔的遗传学并发展为优生学;在洛桑农业实验期间通过方差分析、实验设计等大大提升了统计的科学性;发展了卡尔·皮尔逊的参数估计方法、卡方检验,引入了自由度,削减了统计参数;费希尔开宗立派弟子众多,这些人发展出了极值统计学、毒理学、概率空间、随机过程等
  3. 埃贡·皮尔逊,继承了父亲的衣钵和职位,迭代了父亲的统计学观点,并启发同时代的统计学家,最为称道的是和内曼一起提出来假设检验的方法
  4. 耶日·内曼,波兰数学家系统的加固了统计学的数学根基,提出了假设检验的方法,使用微积分公式推导出置信区间,正式提出了假设检验、置信度、显著性水平等概念;将统计方法引入医学、气象学、毒理学等各个领域;在加州伯克利开设了统计学系培育了一大批统计学家

其他人也为统计学的发展做出巨大贡献,业余统计学家高尔顿将统计和数学方法引入生物统计,开启了统计学大发展的序幕;提出学生检验的戈赛特在吉尼斯啤酒酿造过程中引入统计方法大大提高了啤酒质量;林德伯格和列维论证中心极限定理的成立条件,条件下样本均值符合正态分布大大拓展了统计学的应用范畴。

统计学也没有停止发展,后续很多统计学家针对离群点提出非参统计方法,计算机的算力加持进一步促进了统计学的应用,费希尔提出的最大似然估计可以在不断的迭代中解决真正的统计参数,最近兴起的因果推断正试图将统计相关性推进到因果性,包括Pearl的因果图模型和Rubin的虚拟事实模型。

统计学的数学基础

20世纪统计学的大发展契机固然是生物统计、农业实验、医学、工业等领域遇到的问题,上面天才般的人物创新的将数学方法,尤其概率论引入统计学也非常关键,从16世纪开始,数学为统计学的发展打下哪些基础呢:

  1. 微积分,牛顿和莱布尼兹分别发明了微积分的方法,通过符号表示、公里定理体系将科学从哲学体系里面剥离出来;累积分布函数是概率密度函数的积分
  2. 线性代数,莱布尼兹发明的线性代数;均值、方差等统计参数使用了线性代数中的均值、二阶矩等方式表示和计算
  3. 概率论,在伯努利家族、费马、棣莫佛、帕斯卡等人的努力下概率论逐步完善,将统计分布用数学公式表达为统计模型
  4. 误差理论,拉普拉斯提出了误差函数用来表示随机性带来的偏差,所有的样本观测都可以表示为概率公式 误差

以上内容参考

  1. wiki百科上统计学相关词条
  2. 《20世纪统计怎样变革了科学:女士品茶》以讲故事的方式为大家介绍了统计学一百多年的历史,书中没有一个数学公式,但是却把大师们面对的问题,在解决问题时创新的思考方式介绍的非常清楚

实战统计数据(白话统计与实验分析)(1)

女士品茶-统计学如何变革了科学和生活

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页