Pandas的一些常用操作_3

发表于2021-02-21|更新于2026-06-08|Python

|浏览量:

今天介绍Pandas对一些常见数据的处理方法。


`1 2 3`	`import numpy as np import pandas as pd df = pd.read_csv('./economics.csv')`

1.缺失数据处理


`1`	`df.isna()#是否有缺失值`


`1`	`df.isna().mean()#缺失的比例`


`1`	`df[df.psavert.isna()]#查看某列是否有缺失值`


`1`	`df[df[['psavert','pop','uempmed']].isna().any(1)]#查看所有列至少有一个缺失值的行“any()至少有一个为空,all()都为空”`


`1 2`	`df[df[['psavert','pop','uempmed']].notna().all(1)]#查看所有没有缺失值的行 df.loc[df[['psavert','pop','uempmed']].notna().all(1)]#查看所有没有缺失值的区域`


`1`	`df.dropna(axis = 0, how = 'any', subset = ['psavert', 'pop'])#axis=0(删除)行,how='any'至少有一个缺失的行`


`1`	`df.dropna(axis = 1, thresh = df.shape[0]-5)#删除超过5个缺失值的列`


`1`	`df.fillna(method = 'ffill', limit = 1)#method='ffill'用前面的元素填充/method='bfill'用后面的元素填充,limit=1连续缺失值的最大填充次数为1`


`1`	`df.fillna(df.mean())#用每列的均值填充`


`1`	`df.interpolate(limit_direction='both', limit=1)#用线性插值填充(both为双向限制插值)`


`1`	`df.interpolate('nearest').values#用最近邻插值填充`

此外，也可以使用KNN来填充缺失值。

2.文本数据处理


`1`	`ts = pd.Series(df['Area'].values, index=df['pct_2014'])#DataFrame转换为Series`


`1`	`ts.str[0]#查看第一个字符`


`1`	`ts.str.len()#查看字符长度`


`1`	`ts.str.split('[aon]', n=3, expand=True)#从左到右拆分字符串，最大拆分次数3次，生成多列`


`1`	`ts.str.join('-')#每个字符用“-”连接`


`1`	`ts.str.cat(ts2, sep='-')#合并两个字符Series，连接符为“-”`


`1`	`ts.str.contains('[a-z]u')#查看包含正则模式的序列`


`1`	`ts.str.startswith('A')#查看以A为开始的序列`


`1`	`ts.str.endswith('e')#查看以e为结尾的序列`


`1`	``` ts.str.match(‘A


`1`	``` ts.str.count(‘[A


`1`	`ts.str.find('de')#从左往右寻找'de',匹配返回位置索引,未找到返回'-1'`


`1`	`ts.str.rfind('de')#从右往左寻找`


`1`	`ts.str.replace('\s?', 'LA', regex=True)#使用正则进行字符串替换`


`1 2`	`pat = '(\w+o)(\w+s)(\w+u)(\w+n)' ts.str.extract(pat)#拆分'o','s','u','n'为4列`


`1`	`pd.to_numeric(ts, errors='ignore')#将可以转为数值的字符转为数值`


`1`	`ts.str.pad(6,'left','')#选定字符串长度为6的填充为""`


`1`	`ts.str.lstrip()#去掉字符串左侧空格`


`1`	`ts.str.zfill(8)#用0补足8位`

3.分类数据


`1`	`s = df.psavert.astype('category')#Dataframe转为category对象`


`1`	`s.cat.categories#查看分类对象属性`


`1`	`s.cat.add_categories('C1')#增加一个类别`


`1`	`s.cat.remove_categories(11.7)#删除一个类别`


`1`	`s = s.cat.rename_categories({'S1':'xxx'})#重命名类别及其值`


`1`	`s.cat.reorder_categories(['S1', 'S2', 'S3', 'S4'], ordered=True)#设置排序`


`1`	`df.sort_values('psavert')#值排序`


`1`	`df.set_index('psavert').sort_index()#作为索引排序`


`1 2`	`res = df.psavert <= 'S4'#比较顺序 res`

4.时序数据

————-图——————–


`1`	`s = pd.to_datetime(df.date)#生成时间序列`


`1`	`s2 = pd.to_datetime(['2020\\1\\1','2020\\1\\3'],format='%Y\\%m\\%d')#强制格式转换,生成时间序列`


`1`	`pd.date_range('1967-07-01','2015-04-01', freq='D')#查看两个时间之间的时间,间隔1天`


`1 2 3 4`	`#dt对象 s.dt.daysinmonth#每个月几天 s.dt.dayofweek#每周几天 s.dt.dayofweek.isin([5,6])#是否包含双休日`


`1`	`pd.Timestamp('20210223 22:00:00')-pd.Timestamp('20210222 18:35:00')#计算两个时间之差`

文章作者: xhj

文章链接: https://hzhzxfs.github.io/2021/02/21/pandas_3/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 xhj的博客！

相关推荐

Pandas的一些常用操作_1

今天介绍几个常用的Pandas操作。 1 2 3 import numpy as np import pandas as pd df = pd.read_csv('./economics.csv') 1.DataFrame to markdown/latexdataframe可以转换为许多常用格式，如csv,excel,sql,json,html,latex等等，这里以markdown和latex为例。 1 2 print(df.to_markdown()) print(df.to_latex()) or 1 2 df.to_markdown('table.md') df.to_latex('table.tex') 也可以自定义输出latex格式，如表格宽度。 1 df.to_latex('tb.tex',column_format='lp{1.8cm}p{1.8cm}p{1.8cm}p{1.8cm}p{1.8cm}p{...

地理空间数据EDA数据探索性分析

EDA——数据探索性分析，是通过了解数据集的基本情况、变量间的相互关系以及变量与预测值之间的关系，为后期特征工程和建立模型做铺垫。本文以智慧海洋建设竞赛为例进行演示。 1. 总体了解数据1.1 查看样本个数和原始特征维度 1 data_train.shape 1 data_test.shape 1 data_train.columns #查看列名 1 2 3 pd.set_option('display.max_info_rows',2699639) #提高非缺失值检查的行数上线 #pd.options.display.max_info_rows = 2699639 data_train.info() 1 2 #查看count 非空值数、std 标准差、（25%、50%、75%）分位数等基本情况 data_train.describe([0.01,0.025,0.05,0.5,0.75,0.9,0.99]) 1.2 查看缺失值和唯一值等 1 data_...

Pandas的一些常用操作_2

今天继续介绍几个常用的Pandas操作。 1 2 3 import numpy as np import pandas as pd df = pd.read_csv('./economics.csv') 1.DataFrame的apply方法 1 df[['psavert','uempmed']].apply(lambda x:x.max()-x.min(), axis=1)#axis=1 将函数应用到列 1 df.applymap(lambda x:x*10)#applymap 将函数应用到每个元素 2.DataFrame的分组 1 df.groupby('unemploy')['psavert'].median()#样例:df.groupby(分组依据)[数据来源].使用操作 1 2 condition = df.unemploy > df.unemploy.mean()#使用condition定...

特征工程就是将原始数据空间变换到新的特征空间，在新的特征空间中，模型能够更好地学习数据中的规律。特征的选择和构造，就是人为地帮助模型学习到原本很难学好的东西，从而使模型达到更好的效果。 1. 根据现实情况构造特征1.1 各点与特定点的距离 1 2 3 4 5 df['x_dis'] = (df['x'] - 6165599).abs() df['y_dis'] = (df['y'] - 5202660).abs() df['base_dis] = (df['y_dis']**2))**0.5 + ((df['x_dis']**2) del df['x_dis'],df['y_dis'] df['base_dis_diff'].head() 1.2 将时间划分为白天与黑夜 1 2 3 df['day_night'] = 0 df.loc[(df['hour'] >...