统计分析数据时的数学方法(统计笔记Allof)
All of Statistics分成3部分:
- 概率
- 统计和推断
- 模型
现在开始第一部分-概率。
我们先来构建一下概率理论的基础定义和公理:
1. 样本空间定义:样本空间是实验中可能结果的集合。
2. 事件定义:在样本空间的一个点被称为样本。事件是样本空间里的子集。
3. 柯尔莫哥洛夫于1933年给出了概率的公理化定义,如下:
设E是随机试验,S是它的样本空间。对于E的每一事件A赋予一个实数,记为P(A),称为事件A的概率。这里P(A)是一个集合函数,P(A)要满足下列条件:
公理1非负性:对于每一个事件A,有P(A)≥0;
公理2规范性:对于必然事件,有P(Ω)=1;
公理3可列可加性:设A1,A2……是两两互不相容的事件,即对于i≠j,Ai∩Aj=φ,(i,j=1,2……,则有P(A1∪A2∪……)=P(A1) P(A2) ……
这里要停下来讲一下P(A)的含义。我们这里注意到P这里是一个从A到是实数的映射,那P是什么呢?现在主要有两种解释:一种是频率,一种是可信度(degrees of beliefs)。在频率论中,P是在长期重复中事件A为真的比率。在可信度论中,P描绘了观察者对事件A为真的信心。这两种解释将导致统计分成了两个学派:频率学派和贝叶斯学派。也许这里有点像孔乙己的4种茴字写法,但我觉得不同的解释会导致不同的统计世界观。等我们讲到统计推断时再继续讨论这个有趣的问题。
由以上公理可以推导出的性质(定理):
概率具有以下7个不同的性质:
性质1:P(Φ) = 0;
性质2:(有限可加性)当n个事件A1,…,An两两互不相容时:
P(A1∪A2∪……)=P(A1) P(A2) ……;
性质3:对于任意一个事件A:P(A) = 1 - P(!A);
性质4:当事件A,B满足A包含于B时:P(B-A) = P(B) - P(A), P(A) <= P(B);
性质5:对于任意一个事件A,P(A) <= 1;
性质6:对任意两个事件A和B,P(B-A) = P(B) - P(A∩B);
性质7:(加法公式)对任意两个事件A和B,P(A U B) = P(A) P(B) - P(A∩B)。
条件概率定义:
条件概率是事件A在事件B发生的条件下发生的概率。条件概率表示为:P(A|B),读作“A在B发生的条件下发生的概率”。条件概率有这么几个性质:
- 若P(B) > 0,那么: P(A|B)=P(AB)/P(B).
- 若不变的B,P(*|B) 满足概率的所有公理。但在不变的A下,P(A|*)不满足概率的公理。
- 一般情况下,P(A|B) = P(B|A)
- “A和B是独立的”等价于“P(A|B) = P(B)”
现在我们开始讲到最鸡冻人心的贝叶斯定理:
我们可以看到他其实是条件概率公式的变形。但出乎意料的是这个公式却有非凡的意义。我们来看一个贝叶斯定理的例子来理解他的强大 --- 吸毒者检测:
假设一个常规的检测结果的敏感度与可靠度均为99%,也就是说,当被检者吸毒时,每次检测呈阳性( )的概率为99%。而被检者不吸毒时,每次检测呈阴性(-)的概率为99%。从检测结果的概率来看,检测结果是比较准确的,但是贝叶斯定理却可以揭示一个潜在的问题。假设某公司将对其全体雇员进行一次鸦片吸食情况的检测,已知0.5%的雇员吸毒。我们想知道,每位医学检测呈阳性的雇员吸毒的概率有多高.
解法:令“D”为该公司雇员吸毒事件,“N”为雇员不吸毒事件,“ ”为雇员检测呈阳性事件。那么根据贝叶斯定律:
- P(D)代表雇员吸毒的概率,不考虑其他情况,该值为0.005。因为公司的预先统计表明该公司的雇员中有0.5%的人吸食毒品,所以这个值就是D的先验概率。
- P(N)代表雇员不吸毒的概率,显然,该值为0.995,也就是1-P(D)。
- P( |D)代表吸毒者阳性检出率,这是一个条件概率同时也是先验概率,由于阳性检测准确性是99%,因此该值为0.99。
- P( |N)代表不吸毒者阳性检出率,也就是出错检测的概率,该值为0.01,因为对于不吸毒者,其检测为阴性的概率为99%,因此,其被误检测成阳性的概率为1-99%。
- P( )代表不考虑其他因素的影响的阳性检出率。该值为0.0149或者1.49%。我们可以通过全概率公式计算得到:此概率 = 吸毒者阳性检出率(0.5% × 99% = 0.00495) 不吸毒者阳性检出率(99.5% × 1% = 0.00995)。P( )=0.0149是检测呈阳性的先验概率。
所以我们可以得到:
令人吃惊的结果。这就是说,尽管我们的检测结果可靠性很高,但是只能得出如下结论:如果某人检测呈阳性,那么此人是吸毒的概率只有大约33%,也就是说此人不吸毒的可能性比较大。我们测试的条件(本例中指D,雇员吸毒)越难发生,发生误判的可能性越大。其实在这里我们可以这样考虑这个现象。虽然每一次误检的概率很低,但是如果有很多次检测(比如一千次),那么误检就成了一个几乎必然会出现的事情。一旦误检出现,再加上正确的阳性检测本来就很少,那么 P(D| )就必然会受到严重影响。
但如果让此人再次复检(相当于P(D)=33.2215%,为吸毒者概率,替换了原先的0.5%),再使用贝叶斯定理计算,将会得到此人吸毒的概率为98.01%。但这还不是贝叶斯定理最强的地方,如果让此人再次复检,再重复使用贝叶斯定理计算,会得到此人吸毒的概率为99.98%已经超过了检测的可靠度。
人们根据不确定性信息作出推理和决策需要对各种结论的概率作出估计,这类推理称为概率推理。下面我们会看到机器学习的数学工具也会频繁用到贝叶斯定理。至此我们已经打好了概率理论的地基,下面就看我们能盖出什么样的房子。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com