非正态分布数据分析(数据分析基础1)

分布是用来描述事件(通常用随机变量X表示)发生规律的数学工具,比如X~N(78, 9)描述了某个考试科目考试成绩的分布情况,服从均值为78,方差为9的正态分布。我们常用直方图或概率密度曲线来展示分布特点(如下图)。#寻找真知派#

非正态分布数据分析(数据分析基础1)(1)

图1 考试成绩分布图(正态分布)

事件的分布类型有很多种,比如指数分布、t分布、泊松分布等,每种分布都对应于一个概率密度函数(连续随机变量)或概率质量函数(离散随机变量)。通过这个函数,我们就可以估算某个事件发生的概率(反之亦可)。这为我们认识问题、分析问题提供了强有力的工具。

非正态分布数据分析(数据分析基础1)(2)

图2 指数分布

非正态分布数据分析(数据分析基础1)(3)

图3 泊松分布

在所有的分布种类中,正态分布是一个很神奇的分布。大多数自然现象和社会事件都服从正态分布,比如身高、收入水平、智力水平等。正态分布的特点是分布曲线是左右对称的,极端现象发生的概率小,而通常现象的发生率高。如图1的成绩分布,大多数学生的成绩在70-85之间,极少数高分和低分。正态分布反映了“普通情况是大多数,极端情况是少数且不失偏颇(极大极小机会均等)”的客观规律。有人将其誉为“上帝创造的公平机制”。

非正态分布数据分析(数据分析基础1)(4)

图4 N(μ,σ2)正态分布的概率密度函数

另外,根据中心极限定理,任何分布,随着其自由度或样本量的增大,其均值都会服从正态分布,也就是说正态分布是所有分布的终极形态。任何一种分布,通过数据变换(如对数化或Box-Cox变换),都可以转化为正态分布,然后进一步求解。在统计分析和机器学习中,正态分布起着基础性的关键作用,也就是说如果没有正态分布,就没有这些数据分析方法。

为什么会这样呢?因为正态分布最具普遍性,而且是最简洁最容易计算的分布。其中心趋势(均值、中位数、众数)均相等,且整个分布仅需指定两个参数——均值μ和方差σ2。

下面我们来看一个例子:

一个5000人的生活区,放置了45个水龙头。假如在某一时刻1个人用水的概率是1%,(1)试分析发生排队的可能性有多高?(2)至少要装多少个水龙头,才能以95%以上的概率保证不拥挤?

我们先来看第一个问题。

用水事件服从二项分布,即ζ~B(5000,0.01)。其均值μ=5000*0.01=50,方差σ2=49.5,标准差σ=7.04。 那么出现排队的概率就是

非正态分布数据分析(数据分析基础1)(5)

二项分布下的概率计算

但上述公式求解非常麻烦。我们可以根据德莫佛——拉普拉斯中心极限定理,将上述问题转化为正态分布N(50,49.5),予以求解。

非正态分布数据分析(数据分析基础1)(6)

转化为标准正态分布,进行概率计算

所以发生排队的概率P(ζ > 45) = 1 − 0.2389 = 0.7611。用水出现拥挤是大概率事件,亟待改善。

现在我们再来看第二个问题,需要多少个水龙头才能保证95%的可能性不排队呢?即

非正态分布数据分析(数据分析基础1)(7)

我们可以将上式转化为标准正态分布的形式

非正态分布数据分析(数据分析基础1)(8)

于是我们得到了

非正态分布数据分析(数据分析基础1)(9)

非正态分布数据分析(数据分析基础1)(10)

m>=61.6,即m=62。需要再增加17个水龙头,便可保证有95%的可能性不排队。#技术技能超级玩家#

@头条号

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页