大数据的基本分析方法(大数据分析必备理论)
上一篇是介绍数学名称基础知识,此文来总结一些大数据分析常用的系数和基本方法:
离散系数(coefficient of variation),是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比。离散系数又称变异系数,是统计学当中的常用统计指标。离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。
偏态系数(deviation coefficient)又称偏差系数,说明随机系列分配不对称程度的统计参数,用Cs表示。和Cv只能反映频率密度分配曲线的平均情况和离散程度,而不能反映其对称(即偏态)情况,所以必须再引入一个参数,即偏差系数Cso。偏态系数绝对值越大,偏斜越严重。以平均值与中位数之差对标准差之比率来衡量偏斜的程度,没有百年以上的资料,偏态系数的计算结果很难得到一个合理的数值。
峰度系数(kurtosis)是用来反映频数分布曲线顶端尖峭或扁平程度的指标。有时两组数据的算术平均数、标准差和偏态系数都相同,但他们分布曲线顶端的高耸程度却不同。峰度系数(Kurtosis)用来度量数据在中心聚集程度。
一些常用的数学分析方法:
移动平均法是用一组最近的实际数据值来预测未来一期或几期内公司产品的需求量、公司产能等的一种常用方法。移动平均法适用于即期预测。当产品需求既不快速增长也不快速下降,且不存在季节性因素时,移动平均法能有效地消除预测中的随机波动,是非常有用的。
简单指数平滑预测是加权平均的一种特殊形式, 它是把t期的实际值Yt和t期的平滑值St加权平均 作为t 1期的预测值。 也用于中短期经济发展趋势预测,所有预测方法中,指数平滑是用得最多的一种。
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
离差平方和法,Ward提出来的,所以又称为Ward法。该方法的基本思想来自于方差分析,如果分类正确,同类样品的离差平方和应当较小,类与类的离差平方和较大。具体做法是先将 n个样品各自成一类,然后每次缩小一类,每缩小一类,离差平方和就要增大,选择使方差增加最小的两类合并,直到 所有的样品归为一类为止。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com