python机器学习及应用(Python机器学习5.1)
5.1读取“银行贷款审批数据.xlsx”表,自变量为x1~x15,决策变量为y(1-同意贷款,0-不同意贷款),其中x1~x6为数值变量,x7~x15为名义变量,请对x1~x6中存在的缺失值用均值策略填充,x7~x15用最频繁值策略填充。
[知识点及要求]缺失值填充
示例代码如下:
# -*- coding: utf-8 -*-
import pandas as pd
data = pd.read_excel("银行贷款审批数据.xlsx")
from sklearn.preprocessing import Imputer
#均值填充
d1 = data.iloc[:,0:6]
imp = Imputer(missing_values='NaN',strategy='mean',axis=0) #按列填充
imp.fit(d1)
fd = imp.transform(d1)
#最频繁值填充
d2 = data.iloc[:,6:-1]
imp1 = Imputer(missing_values='NaN',strategy="most_frequent",axis=0)
imp1.fit(d2)
fd1 = imp1.transform(d2)
运行结果如下图:
更多内容请见网易云课堂Python大数据学习吧:
https://study.163.com/provider/480000002230206/index.htm?share=2&shareId=480000002230206
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com