机器学习线性回归算法的基本原理（机器学习中的概率论与数理统计）

巴拉拉魔仙 2022-11-24 22:43:30

《大数据和人工智能交流》头条号向广大初学者新增C 、Java 、Python 、Scala、javascript 等目前流行的计算机、大数据编程语言，希望大家以后关注本头条号更多的内容。

一、概率论数理统计常见的统计量Python实现总结

1、求数学期望

#coding=utf-8import numpy as nparr = [1,2,3,4,5,6]#1、数学期望（俗称平均值）num_avg = np.mean(arr)print(num_avg)

2、求方差、标准差

#coding=utf-8import numpy as nparr = [1,2,3,4,5,6]# 求方差num_var = np.var(arr)print(num_var)# 求标准差num_std = np.std(arr,ddof=1)print(num_std)

3、求协方差

#coding=utf-8import numpy as np#求协方差x=np.array([[1 ,2 ,3] ,[2 ,5 ,6 ],[ 7 ,8 ,9],[ 11 ,11 ,12]])cov_xy = np.cov(x)print(cov_xy)

二、求相关系数的Python实现总结

1、公式法

#coding=utf-8import numpyimport pandasX = [1,2,3,4,5]Y = [1.01 , 2.02 , 3.03 ,4.04 , 5.05]# 均值XMean = numpy.mean(X)YMean = numpy.mean(Y)#标准差XSD = numpy.std(X)YSD = numpy.std(Y)#z分数ZX = (X-XMean)/XSDZY = (Y-YMean)/YSD#相关系数r = numpy.sum(ZX*ZY)/(len(X))print(r)

2、通过numpy的corrcoef方法计算相关性系数

#coding=utf-8import numpyX = [10.11, 20.11, 33.11]Y = [10.22, 20.22, 30.22 ]t=numpy.corrcoef(X,Y)print(t)

3、通过pandas的corr方法计算相关性系数

#coding=utf-8import numpyimport pandasX = [10.11, 20.11, 33.11]Y = [10.22, 20.22, 30.22 ]data = pandas.DataFrame({'X':X,'Y':Y})t2=data.corr()print(t2)

三、常见的分布Python实现总结

1、正太分布

正态分布是一种连续分布，其函数可以在实线上的任何地方取值。正态分布由两个参数描述：分布的平均值μ和方差σ2 。

机器学习线性回归算法的基本原理（机器学习中的概率论与数理统计）(1)

#coding=utf-8import numpy as npfrom scipy import statsimport matplotlib.pyplot as pltmu = 0 # meansigma = 1 # standard deviationx = np.arange(-3, 3, 0.1)print(x)y = stats.norm.pdf(x, 0, 1)print(y)plt.plot(x, y)plt.title('Normal: $\mu$=%.1f, $\sigma^2$=%.1f' % (mu, sigma))plt.xlabel('x')plt.ylabel('Probability density', fontsize=15)plt.show()

机器学习线性回归算法的基本原理（机器学习中的概率论与数理统计）(2)

2、指数分布

指数分布是一种连续概率分布，用于表示独立随机事件发生的时间间隔。比如旅客进入机场的时间间隔、打进客服中心电话的时间间隔、中文维基百科新条目出现的时间间隔等等。

机器学习线性回归算法的基本原理（机器学习中的概率论与数理统计）(3)

我将参数λ设置为0.2，并将x的取值范围设置为 $[1, 10]$ 。

#coding=utf-8import numpy as npfrom scipy import statsimport matplotlib.pyplot as pltlambd = 0.2x = np.arange(1,10,0.1)y =lambd * np.exp(-lambd *x)print(y)plt.plot(x, y)plt.title('Exponential: $\lambda$=%.2f' % (lambd))plt.xlabel('x')plt.ylabel('Probability density', fontsize=15)plt.show()

机器学习线性回归算法的基本原理（机器学习中的概率论与数理统计）(4)

3、二项分布

机器学习线性回归算法的基本原理（机器学习中的概率论与数理统计）(5)

某射手射击，射击结果分为中靶和不中靶两种，若每次射击相互独立，中靶的概率皆为0.7，讨论在4次射击中恰好2次中靶的概率（0.2646）

#coding=utf-8import numpy as npfrom scipy import statsimport matplotlib.pyplot as pltp = 0.7 # 事件A概率0.7n = 4 # 重复实验4次k = np.arange(n 1) # 5种可能出现的结果(中0次、中1次、中2次、中3次、中4次)r = stats.binom.pmf(k, n, p)print(r)

4、泊松分布（Poisson Distribution）

一个服从泊松分布的随机变量X，表示在具有比率参数（rate parameter）λ的一段固定时间间隔内，事件发生的次数。参数λ告诉你该事件发生的比率。随机变量X的平均值和方差都是λ。

机器学习线性回归算法的基本原理（机器学习中的概率论与数理统计）(6)

E(X) = λ, Var(X) = λ

泊松分布的例子：已知某路口发生事故的比率是每天2次，那么在此处一天内发生4次事故的概率是多少？

让我们考虑这个平均每天发生2起事故的例子。泊松分布的实现和二项分布有些类似，在泊松分布中我们需要指定比率参数。泊松分布的输出是一个数列，包含了发生0次、1次、2次，直到10次事故的概率。我用结果生成了以下图片。

#coding=utf-8import numpy as npfrom scipy import statsimport matplotlib.pyplot as pltrate = 2n = np.arange(0, 10)y = stats.poisson.pmf(n, rate)print(y)plt.plot(n, y, 'o-')plt.title('Poisson: rate=%i' % (rate), fontsize=15)plt.xlabel('Number of accidents')plt.ylabel('Probability of number accidents', fontsize=15)plt.show()

机器学习线性回归算法的基本原理（机器学习中的概率论与数理统计）(7)

5、T分布

t分布形状类似于标准正态分布； t分布是对称分布，较正态分布离散度强，密度曲线较标准正态分布密度曲线更扁平

（1）T分布的应用场景：

- 根据小样本来估计呈正态分布且方差未知的总体的均值

- 对于任何一种样本容量，真正的平均值抽样分布是t分布，因此，当存在疑问时，应使用t分布

- 当样本容量在 30-35之间时，t分布与标准正态分布难以区分

-当样本容量达到120时，t分布与标准正态分布实际上完全相同了

（2）自由度df对分布的影响

-- 样本方差使用一个估计的参数（平均值），所以计算置信区间时使用的t分布的自由度为 n - 1

-- 由于引入额外的参数(自由度df)，t分布比标准正态分布的方差更大（置信区间更宽）

-- 与标准正态分布曲线相比，自由度df越小，t分布曲线愈平坦，曲线中间愈低，曲线双侧尾部翘得愈高

-- 自由度df愈大，t分布曲线愈接近正态分布曲线，当自由度df= ∞ 时，t分布曲线为标准正态分布曲线

#coding=utf-8import numpy as npfrom scipy import statsimport matplotlib.pyplot as plt# 不同自由度的学生t分布与标准正态分布import numpy as npfrom scipy.stats import normfrom scipy.stats import timport matplotlib.pyplot as pltprint('比较t-分布与标准正态分布')x = np.linspace( -3, 3, 100)plt.plot(x, t.pdf(x,1), label='df=1')plt.plot(x, t.pdf(x,2), label='df=20')plt.plot(x, t.pdf(x,100), label = 'df=100')plt.plot( x[::5], norm.pdf(x[::5]),'kx', label='normal')plt.legend()plt.show()

机器学习线性回归算法的基本原理（机器学习中的概率论与数理统计）(8)

6、 β分布（Beta Distribution）

β分布是一个取值在 [0, 1] 之间的连续分布，它由两个形态参数α和β的取值所刻画。

β分布的形状取决于α和β的值。贝叶斯分析中大量使用了β分布。

机器学习线性回归算法的基本原理（机器学习中的概率论与数理统计）(9)

#coding=utf-8import numpy as npfrom scipy import statsimport matplotlib.pyplot as plta = 0.5b = 0.5x = np.arange(0.01, 1, 0.01)y = stats.norm.pdf(x, a, b)print(y)plt.plot(x, y)plt.title('Beta: a=%.1f, b=%.1f' % (a, b))plt.xlabel('x')plt.ylabel('Probability density', fontsize=15)plt.show()

机器学习线性回归算法的基本原理（机器学习中的概率论与数理统计）(10)

尊敬的读者：如果您感觉好麻烦关注、收藏、点赞，谢谢！

《大数据和人工智能交流》的宗旨

1、将大数据和人工智能的专业数学：概率数理统计、线性代数、决策论、优化论、博弈论等数学模型变得通俗易懂。

2、将大数据和人工智能的专业涉及到的数据结构和算法：分类、聚类、回归算法、概率等算法变得通俗易懂。

3、最新的高科技动态：数据采集方面的智能传感器技术；医疗大数据智能决策分析；物联网智慧城市等等。

根据初学者需要会有C语言、Java语言、Python语言、Scala函数式等目前主流计算机语言。

根据读者的需要有和人工智能相关的计算机科学与技术、电子技术、芯片技术等基础学科通俗易懂的文章。

机器学习线性回归算法的基本原理（机器学习中的概率论与数理统计）(11)

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

秒懂生活

机器学习线性回归算法的基本原理（机器学习中的概率论与数理统计）

猜您喜欢

毛衣穿之前如何处理不起球（新买的毛衣不要直接穿）

溶氧太多对鱼有什么影响（种情况影响水中溶氧量）

从西游伏妖篇看周星驰的内心（西游伏妖篇里的孙悟空）

毛衣怎么洗干净更有弹性（毛衣原来这样洗才不变形）

教你一招挂毛衣不变形（挂毛衣的正确方法）

毛衣怎么叠更方便（毛衣一挂就变形）

苹果如何长截图啊（iPhone12如何进行长截图）

热门推荐

排行榜