常见的缺失值处理方法有哪些(如何进行缺失值的处理与估计)
估计缺失值常用方法
1、均值插补。如果数据是有规律的(递增或递减,定序的),用均数补全,如果数据是随机的,用众数补全。
2、最小二乘法补全,这是基于最小二乘法的原理,补全数据,使补全后的数据整体的离差平方和最小,这一般是方差分析中处理缺失值的一般方法。
3、基于REML的方法估计,REML混线性模型本身可以处理非平衡数据,它也可以作为估计缺失值的一种,它估计出来的缺失值比最小二乘法要准确,应用比较广泛。
处理不平衡数据的方法
✦ unbalanced anova,这可以对不平衡数据进行方差分析
✦ REML的混线性模型,它可以处理不平衡数据,应用比较广泛
数据案例
数据是3个品种在3个区组的品种表现,其中第3个区组的第3个品种观测值缺失,分析3个品种间是否存在差异。数据如下:
分析方法一:方差分析(可估计缺失值)
数据处理:*代替缺失值
分析方法:GenStat ANOVA
分析结果如下:
特点:“*”代替缺失值后,GenStat可估算出缺失值数值,并进行方差分析
分析方法 2:REML分析(可估计缺失值)
数据处理1:删除缺失值
分析方法:GenStat Linear Mixed Models
分析结果如下:
数据处理2:”*”代替缺失值
除上述分析结果外,还可估算缺失值,
结果如下:
特点:删除缺失值或者”*”代替缺失值,REML分析都可以很好地比较品种间的差异。但是”*”代替缺失值时,可很好地估算出缺失值,有利于进行其他分析。
分析方法 3:GenStat unbalanced ANOVA
数据处理:删除缺失值
分析方法:GenStat unbalanced ANOVA
分析结果如下:
特点:数据为非平衡数据,删除缺失值后,方差分析报错将会出错,所以采用GenStat unbalanced anova 分析。因为缺失值已删除,所以就不存在缺失值估计了。
结论
※ 如果想要估计缺失值,用REML混线性模型进行估计,这个比方差分析的最小二乘法估计的更加准确。
※ 如果想要分析不平衡数据,用REML的混线性模型分析,这个比GenStat的unbalanced anova模型更高级,适用范围也更广泛,更重要的是它可以估算BLUE值和BLUP值。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com