统计学相对指标有哪些(描述一个数据集常用的4个指标分别是什么)
- 描述统计学:找到关键的的指标来描述数据的整体情况
- 描述数据集常用的4个指标
- 平均值
- 四分位数
- 标准差
- 标准分
- 平均值
- 意义:对极端值不敏感,出现平均数陷阱
- 案例:如平均工资并不能代表每个人的收入水平,高收入群体将平均工资拉高了
- 四分位数
- 四分位数与中位数有关中位数:将数字按从小到大排序,排在中间的那个数或两个数的平均值即为中位数如何求四分位数?先求出中位数,中位数将整列数据一分为二。四分位数即为,在中位数分割成的两半数据中分别再求一个中位数,则可以求得上四分位数和下四分位数。五个数值:此时下四分位数、中位数、上四分位数将这个数列分为四等分,每份占25%,第一个数称为下界,最后一位数称为上界。用5个数值可以描述数据的整体分布状况(箱线图)
- 箱线图用计算四分位数过程中得到的五个数值,可以绘制箱线图
- 应用1:在箱线图中,离中位数更近的四分位数可以反映出该部分数据更集中。如图,表示该数据集中的数据更加集中于中位数以下。同时,箱线图还可以反映出数据集的最大最小值。
- 应用:识别出可能的异常值。
- 对异常值进行检查和处理四分位数识别异常值的方法——Turkey‘s test 方法
如图,在图中将计算得到的Q1,Q2,Q3带入两个公式,K值分别取1.5和3,计算得到的数值在图中表明。可以看到超过红色部分的数值可能为中度异常,而超过蓝色部分的数值则为极度异常。
- 标准差(西格玛)
- 标准差反映了每个数值与平均值之间的距离,用于衡量数据集的波动大小
- 波动大小=离散程度=变异性
- 标准差的应用
夏普比率=(投资回报-无风险回报)/投资组合的标准差,夏普比率越高,反映投资风险越低,回报越大
- 标准分
- 标准分Z=(数值-平均值)/标准差
- 标准分表示某个数值距离平均值多少个标准差
- 应用质量管理:六西格玛管理法,知道产品质量偏离的程度
变异系数
- 应用场景:标准差能够表示数据整体的波动,但它的缺点是如果两个数据集差别比较大,那就无法比较
- 比如两个店铺,一个店铺的营业额为1000w,另一个为100w,就算两个店的标准差相同,也不能进行对比,这种情况下需要使用变异系数
- 变异系数CV=标准差/平均值,用于比较不同数据集的波动大小。
- 指标总结
,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com