Pandas的一些常用操作_2

发表于2021-02-21|更新于2026-06-08|Python

|浏览量:

今天继续介绍几个常用的Pandas操作。


`1 2 3`	`import numpy as np import pandas as pd df = pd.read_csv('./economics.csv')`

1.DataFrame的apply方法


`1`	`df[['psavert','uempmed']].apply(lambda x:x.max()-x.min(), axis=1)#axis=1 将函数应用到列`


`1`	`df.applymap(lambda x:x*10)#applymap 将函数应用到每个元素`

2.DataFrame的分组


`1`	`df.groupby('unemploy')['psavert'].median()#样例:df.groupby(分组依据)[数据来源].使用操作`


`1 2`	`condition = df.unemploy > df.unemploy.mean()#使用condition定义分组依据 df.groupby(condition)['psavert'].mean()#分为True和False两组`


`1`	`df.groupby([condition, df['unemploy']])['psavert'].mean()#True组和False两组分别细分`


`1`	`df.groupby([df['unemploy'], df['uempmed']])['psavert'].mean()#两级分组`


`1`	`gb = df.groupby(['unemploy'])#Groupby对象`


`1 2`	`gb.size()#每组的元素个数 #和DataFrame一样，Groupby对象也有max\idxmin\all\\nunique\quantile\prod等函数，这里不一一列举。`


`1`	`gb.agg(['skew', 'sum', 'idxmax'])#agg聚合函数，查看每个分组的三个统计量`


`1`	`gb.agg(lambda x: x.mean()-x.min())#在agg中自定义函数`


`1`	`gb.filter(lambda x: x.shape[0] > 100)#组过滤`


`1`	`gb.apply(lambda x: x**2)#组的apply方法`

3.DataFrame的连接


`1 2 3`	`df1 = df[0:10] df2 = df[10:20] df1.merge(df2, on='date', how='outer')#merge表示关系型连接，包括左连接、右连接、内连接和外(全)连接`


`1`	`pd.concat([df1, df2], axis=0)#concat是方向性连接，axis=0表示纵向连接`


`1 2 3 4`	`def choose_min(x1, x2): min = x1.where(x1<x2, x1) return min df1.combine(df2, choose_min)#使用combine函数自定义连接规则`

下一期是Pandas的常见数据处理，包括缺失数据、文本数据、分类数据和时序数据。

文章作者: xhj

文章链接: https://hzhzxfs.github.io/2021/02/21/pandas_2/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 xhj的博客！

相关推荐

Pandas的一些常用操作_1

今天介绍几个常用的Pandas操作。 1 2 3 import numpy as np import pandas as pd df = pd.read_csv('./economics.csv') 1.DataFrame to markdown/latexdataframe可以转换为许多常用格式，如csv,excel,sql,json,html,latex等等，这里以markdown和latex为例。 1 2 print(df.to_markdown()) print(df.to_latex()) or 1 2 df.to_markdown('table.md') df.to_latex('table.tex') 也可以自定义输出latex格式，如表格宽度。 1 df.to_latex('tb.tex',column_format='lp{1.8cm}p{1.8cm}p{1.8cm}p{1.8cm}p{1.8cm}p{...

特征工程就是将原始数据空间变换到新的特征空间，在新的特征空间中，模型能够更好地学习数据中的规律。特征的选择和构造，就是人为地帮助模型学习到原本很难学好的东西，从而使模型达到更好的效果。 1. 根据现实情况构造特征1.1 各点与特定点的距离 1 2 3 4 5 df['x_dis'] = (df['x'] - 6165599).abs() df['y_dis'] = (df['y'] - 5202660).abs() df['base_dis] = (df['y_dis']**2))**0.5 + ((df['x_dis']**2) del df['x_dis'],df['y_dis'] df['base_dis_diff'].head() 1.2 将时间划分为白天与黑夜 1 2 3 df['day_night'] = 0 df.loc[(df['hour'] >...

Pandas的一些常用操作_3

今天介绍Pandas对一些常见数据的处理方法。 1 2 3 import numpy as np import pandas as pd df = pd.read_csv('./economics.csv') 1.缺失数据处理 1 df.isna()#是否有缺失值 1 df.isna().mean()#缺失的比例 1 df[df.psavert.isna()]#查看某列是否有缺失值 1 df[df[['psavert','pop','uempmed']].isna().any(1)]#查看所有列至少有一个缺失值的行“any()至少有一个为空,all()都为空” 1 2 df[df[['psavert','pop','uempmed']].notna().all(1)]#查看所有没有缺失值的行 df.loc[df[['psavert',&#...

地理空间数据EDA数据探索性分析

EDA——数据探索性分析，是通过了解数据集的基本情况、变量间的相互关系以及变量与预测值之间的关系，为后期特征工程和建立模型做铺垫。本文以智慧海洋建设竞赛为例进行演示。 1. 总体了解数据1.1 查看样本个数和原始特征维度 1 data_train.shape 1 data_test.shape 1 data_train.columns #查看列名 1 2 3 pd.set_option('display.max_info_rows',2699639) #提高非缺失值检查的行数上线 #pd.options.display.max_info_rows = 2699639 data_train.info() 1 2 #查看count 非空值数、std 标准差、（25%、50%、75%）分位数等基本情况 data_train.describe([0.01,0.025,0.05,0.5,0.75,0.9,0.99]) 1.2 查看缺失值和唯一值等 1 data_...