非正态分布数据分析（数据分析基础1）

只爲紅顔笑 2022-11-19 16:50:17

分布是用来描述事件（通常用随机变量X表示）发生规律的数学工具，比如X~N(78, 9)描述了某个考试科目考试成绩的分布情况，服从均值为78，方差为9的正态分布。我们常用直方图或概率密度曲线来展示分布特点（如下图）。#寻找真知派#

非正态分布数据分析（数据分析基础1）(1)

图1 考试成绩分布图（正态分布）

事件的分布类型有很多种，比如指数分布、t分布、泊松分布等，每种分布都对应于一个概率密度函数（连续随机变量）或概率质量函数（离散随机变量）。通过这个函数，我们就可以估算某个事件发生的概率（反之亦可）。这为我们认识问题、分析问题提供了强有力的工具。

非正态分布数据分析（数据分析基础1）(2)

图2 指数分布

非正态分布数据分析（数据分析基础1）(3)

图3 泊松分布

在所有的分布种类中，正态分布是一个很神奇的分布。大多数自然现象和社会事件都服从正态分布，比如身高、收入水平、智力水平等。正态分布的特点是分布曲线是左右对称的，极端现象发生的概率小，而通常现象的发生率高。如图1的成绩分布，大多数学生的成绩在70-85之间，极少数高分和低分。正态分布反映了“普通情况是大多数，极端情况是少数且不失偏颇（极大极小机会均等）”的客观规律。有人将其誉为“上帝创造的公平机制”。

非正态分布数据分析（数据分析基础1）(4)

图4 N（μ,σ2）正态分布的概率密度函数

另外，根据中心极限定理，任何分布，随着其自由度或样本量的增大，其均值都会服从正态分布，也就是说正态分布是所有分布的终极形态。任何一种分布，通过数据变换（如对数化或Box-Cox变换），都可以转化为正态分布，然后进一步求解。在统计分析和机器学习中，正态分布起着基础性的关键作用，也就是说如果没有正态分布，就没有这些数据分析方法。

为什么会这样呢？因为正态分布最具普遍性，而且是最简洁最容易计算的分布。其中心趋势（均值、中位数、众数）均相等，且整个分布仅需指定两个参数——均值μ和方差σ2。

下面我们来看一个例子：

一个5000人的生活区，放置了45个水龙头。假如在某一时刻1个人用水的概率是1%，（1）试分析发生排队的可能性有多高？（2）至少要装多少个水龙头，才能以95％以上的概率保证不拥挤？

我们先来看第一个问题。

用水事件服从二项分布，即ζ~B(5000,0.01)。其均值μ=5000*0.01=50,方差σ2=49.5，标准差σ=7.04。那么出现排队的概率就是

非正态分布数据分析（数据分析基础1）(5)