python机器学习及应用(Python机器学习5.1)

5.1读取“银行贷款审批数据.xlsx”表,自变量为x1~x15,决策变量为y(1-同意贷款,0-不同意贷款),其中x1~x6为数值变量,x7~x15为名义变量,请对x1~x6中存在的缺失值用均值策略填充,x7~x15用最频繁值策略填充。

[知识点及要求]缺失值填充

示例代码如下:

# -*- coding: utf-8 -*- import pandas as pd data = pd.read_excel("银行贷款审批数据.xlsx") from sklearn.preprocessing import Imputer #均值填充 d1 = data.iloc[:,0:6] imp = Imputer(missing_values='NaN',strategy='mean',axis=0) #按列填充 imp.fit(d1) fd = imp.transform(d1) #最频繁值填充 d2 = data.iloc[:,6:-1] imp1 = Imputer(missing_values='NaN',strategy="most_frequent",axis=0) imp1.fit(d2) fd1 = imp1.transform(d2)

运行结果如下图:

python机器学习及应用(Python机器学习5.1)(1)

更多内容请见网易云课堂Python大数据学习吧:

https://study.163.com/provider/480000002230206/index.htm?share=2&shareId=480000002230206

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页