pandas 多维数据分析（使用pandas做数据分析）

凋零的花儿 2022-11-13 15:45:47

pandas是数据分析师最常用的工具之一，掌握以下函数足以应对工作中的各种需求，

pandas 多维数据分析（使用pandas做数据分析）(1)

P4 数据集描述
P5 重命名列名称
P6 删除列
P7 整体排序
P8 通过列条件筛选数据
P9 多条件筛选
P11 怎样使用axis参数
P12 字符串方法
P13 改变数据类型
P14 什么时候使用groupby
P15 探索series
P16 处理缺失值
P17 关于index
P18 选择多行或多列
P21 减少dataframe占用内存
P24 创建虚拟变量(one-hot编码)
P25 时间字段处理
P26 去除重复项
P27 怎样避免SettingWithCopyWarming
P28 改变显示选项
P29 创建Dateframe的方式
P30 对DataFrame或Series使用函数

P4 数据集描述

df.describe() df.describe(include=['object']) df.shape df.dtypes

P5 重命名列名称

df.columns df.rename(columns={'name1':'rename1', 'name2':'rename2'}, inplace=True) df_newcolumns = ['rename1', 'rename2'] df.columns = df_newcolumns # 替换列名中的字符 df.columns = df.columns.str.replace(' ', '_')

P6 删除列

df.drop('name1', axis=1, inplace=True) # axis=1 列 df.drop(['name1','name2'], axis=1, inplace=True)

P7 整体排序

df['name1'].sort_values(ascending=False) # ascending=False 倒序 df.sort_values('name', ascending=False) df.sort_values(['name1','name2'], ascending=False)

P8 通过列条件筛选数据

df[df.age>20] df.loc[df.age>20, 'name1']

P9 多条件筛选

df[(df.name1>10) & (df.name2<0)] df[(df.name1>10) | (df.name2<0)] df[df.name1.isin(['key1', 'key2', 'key3'])]

P11 怎样使用axis参数

df.drop('name',axis=1) df.mean(axis=0) # 每列的均值 df.mean(axis=1) # 每行的均值

pandas 多维数据分析（使用pandas做数据分析）(2)

P12 字符串方法

# name1列转大写 df.name1.str.upper() df.name1.str.contain('hah') # 返回True/False df[df.name1.str.contain('hah')] # 用于筛选

P13 改变数据类型

df.name = df.name.astype(float) df = pd.read_csv(dtype={'name1':float}) # 布尔型装换位0、1 df.name1.astype(int)

P14 什么时候使用groupby

df.groupby('name1').name2.mean() df.groupby('name1').name2.agg(['count','mean', 'max', 'min']) df.groupby('name1').mean() # 得到所有列的均值对每列使用不同的聚合函数怎么做

pandas 多维数据分析（使用pandas做数据分析）(3)

P15 探索series

# 一列中每个元素的数量 df.name.value_counts() # 默认不计算缺失值，如果要计算需要（dropna=False） # 一列中每个元素的占比 df.name.value_counts(normalize=True) # 一列中每个元素 df.name.unique() # 一列中元素数量 df.name.nunique() pd.crosstab(df.name1, df.name2) # 价差表

P16 处理缺失值

# 查看是否是缺失值 df.isnull()/df.notnull() # 查看每个特征缺失值数量 df.isnull().sum() df.dropna(how='any') # 删除所有包含缺失值的行 df.dropna(how='all') # 删除所有值都是缺失值的行 df.dropna(subset=['name1', 'name2'], how='any') # 删除这两列中包含缺失值的行 # 填充缺失值 df['name'] = df['name'].fillna(value='hah', inplace=True)

P17 关于index

# 重置index df.set_index('name1', inplace=True) df.reset_index(inplace=True) # 改变index的name df.index.name = None df.index.name = 'hdah' pd.concat([df1, series1], axis=1) # 可以合并dataframe和series

P18 选择多行或多列

df.loc # 使用标签名称 df.loc[1:3,:] # 包含1和3 df.iloc # 使用位置 df.iloc[1:3,:] # 包含1不包含3

P21 减少dataframe占用内存

pandas 多维数据分析（使用pandas做数据分析）(4)

# 查看个字段占用内存 df.memory_usage(deep=True) # 为object加上自定义大小顺序 df['name'] = df['name'].astype('category', categories=['good', 'good1', 'good2'], ordered=True)

P24 创建虚拟变量(one-hot编码)

df['new_name'] = df.name.map({'x':1, 'y':2}) # 把name列中的x改为1，y改为2 pandas.get_dummies(df.sex, prefix='sex') # 离散特征重新编码,以x开头 pandas.get_dummies(df, columns=['name1', 'name2'], drop_first=True) # drop_first参数默认为False,删除结果中的第一列。

P25 时间字段处理

# 字符串切片 df.name1.str.slice(-5,-3) # 日期处理函数 df['time'] = pd.to_datetime(df.time) # 其他方法（.dt.） df.time.dt.weekday or weekday_name 返回周几 df.time.dt.dayofyear 返回一年中的第几天 # 作为筛选条件 ts = pd.to_datetime('1/1/2019') df.loc[df.times>ts, :] # 日期之间的数学计算 (df.times.max() - df.times.min()).days

P26 去除重复项

# 重复个数 df.name.dumplicated().sum() df.dumplicated().sum() # 重复项明细 df.loc[df.dumplicated(keep=False), :] keep参数，False全部显示，first显示做后一个，last显示第一个； # 删除重复想 df.drop_dumplicates(keep=last) df.drop_dumplicates(subset=['name1', 'name2'])

pandas 多维数据分析（使用pandas做数据分析）(5)

P27 怎样避免SettingWithCopyWarming

尽量使用loc，避免直接copy 经过多级筛选之后，pandas不确定当前Dateframe是否是copy过来的，所以，对当前dateframe操作时，不确定是否为影响最初的数据集，而爆出SettingWithCopyWarming，可以在最初拷贝数据集的时候使用copy方法；

P28 改变显示选项

主要方法 pandas.get_option() 显示所有行 pd.set_option('display.max_rows', None) 默认显示60行 pd.set_option('display.max_rows', None) 其他选项最大列数：display.max_columns 最大单元格宽度：display.max_colwidth 小数点位数：display.precision 查看目前选项： pd.describe_option() pd.describe_option('rows') 重置所有默认选项 pd.reset_option('all')

P29 创建Dateframe的方式

1 字典 pd.DataFrame({'id':[1,2,3], 'name':['hah','jjj','kk']}, columns=['id2', 'name2'], index=['x','y','z']) 2 列表 pd.DataFrame([[1,2,3], ['x','v','b'], [1,'5','x']]) 一个子列表为一行 3 使用numpy arr = np.random.rand(4,2) 4行2列 pd.DataFrame(arr) 4 字典结合numpy pd.DataFrame({'id':np.arrange(100,110,1), 'name':np.random.randint(60, 101,10)}) 5 连接DataFrame和Series' pd.concat([df,s], axis=1)

P30 对DataFrame或Series使用函数

map df['name1'] = df.name.map({'x':1, 'y':2}) apply df[name1] = df.name,apply(len) df[name1] = df.name,apply(np.ciel) def fun(x,y): return x[y] df.name.apply(fun, y=2 df.apply(max, axis=0) 每一列的最大值 df.apply(max, axis=1) 每一行的最大值 df.apply(np.argmax, axis=1) 每一行的最大值对应的列名 applymap 针对全局每一个单元格做操作 df.applymap(float)

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

猜您喜欢

excel如何筛选两个表格中的重复值（如何筛选两个Excel表格中重复的数据）

那片落叶
红米手机上的三个功能怎么关（红米手机常见功能使用技巧大全）

未来佷美
为什么玩手机时间长了手痛（你有手机手吗）

够痛够领悟
acc功能介绍大全（ACC安装后的实际表现到底是什么样）

淡定眼光
车载空调ptc是什么模式（你车上的ACCAEB系统什么时候使用）

绝世佳偶
锐龙和英特尔处理器对比图（Intel一次曝光近十款处理器）

莫明紫
农业科技有限公司的章程（种业科技应落到商业化）

文艺范青年

秒懂生活

pandas 多维数据分析（使用pandas做数据分析）

猜您喜欢

excel如何筛选两个表格中的重复值（如何筛选两个Excel表格中重复的数据）

红米手机上的三个功能怎么关（红米手机常见功能使用技巧大全）

为什么玩手机时间长了手痛（你有手机手吗）

acc功能介绍大全（ACC安装后的实际表现到底是什么样）

车载空调ptc是什么模式（你车上的ACCAEB系统什么时候使用）

锐龙和英特尔处理器对比图（Intel一次曝光近十款处理器）

农业科技有限公司的章程（种业科技应落到商业化）

热门推荐

排行榜