Pandas的一些常用操作_1

发表于2021-02-21|更新于2026-06-08|Python

|浏览量:

今天介绍几个常用的Pandas操作。


`1 2 3`	`import numpy as np import pandas as pd df = pd.read_csv('./economics.csv')`

1.DataFrame to markdown/latex

dataframe可以转换为许多常用格式，如csv,excel,sql,json,html,latex等等，这里以markdown和latex为例。


`1 2`	`print(df.to_markdown()) print(df.to_latex())`

or


`1 2`	`df.to_markdown('table.md') df.to_latex('table.tex')`

也可以自定义输出latex格式，如表格宽度。


`1`	`df.to_latex('tb.tex',column_format='lp{1.8cm}p{1.8cm}p{1.8cm}p{1.8cm}p{1.8cm}p{1.8cm}')`

除此以外，dataframe还可以保存为图片。


`1 2`	`import dataframe_image as dfi dfi.export(obj = df, filename = 'table.jpg', fontsize=15)`

2.DataFrame常用属性查询


`1`	`df.values #值`


`1`	`df.index #索引号`


`1`	`df.columns #列标签`


`1`	`df.dtypes #数据类型`


`1`	`df.shape #形状(几行几列)`

3.DataFrame常用基本函数


`1`	`df.head(5) #前5行`


`1`	`df.tail(5) #后5行`


`1`	`df.info() #信息概况`


`1`	`df.describe() #主要统计量(count、mean、std、max、min、quartile)`

4.DataFrame唯一值函数


`1`	`df['psavert'].unique() #唯一值组成的数组`


`1`	`df['psavert'].nunique() #唯一值个数`


`1`	`df['psavert'].value_counts() #唯一值及其频数`


`1`	`df.describe() #主要统计量(count、mean、std、max、min、quartile)`


`1`	`df['psavert'].duplicated() #重复行的布尔值`


`1`	`df[df['psavert'].duplicated()] #单列去重(删除重复行)`


`1`	`df.drop_duplicates(subset=['psavert', 'pop'], keep='first') #多列去重(保留first唯一值)`

5.DataFrame替换函数


`1`	`df['psavert'].replace(12.5, 'A', inplace = True) #替换某列的单个值`


`1`	`df['psavert'].replace({12.5:'A', 11.7:'B'}, inplace = True) #替换某列的多个值`


`1`	`df['date'].replace({r'2\d+': 'The 21st century'}, regex=True, inplace = True) #正则替换`


`1`	`df['psavert'].mask(df['psavert']>12.0 ,'A', inplace = True) #条件符合，进行替换`


`1`	`df['psavert'].where(df['psavert']<12.0 ,'A', inplace = True) #条件不符合，进行替换`

5.DataFrame排序函数


`1`	`df.sort_values('psavert',ascending = False) #单列降序排序`


`1`	`df.sort_values(['psavert','uempmed'],ascending=[True,False]) #前者升序情况下，后降序`

今天先写到这，下一期接着写DataFrame的apply方法。

文章作者: xhj

文章链接: https://hzhzxfs.github.io/2021/02/21/pandas_1/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 xhj的博客！

相关推荐

地理空间数据EDA数据探索性分析

EDA——数据探索性分析，是通过了解数据集的基本情况、变量间的相互关系以及变量与预测值之间的关系，为后期特征工程和建立模型做铺垫。本文以智慧海洋建设竞赛为例进行演示。 1. 总体了解数据1.1 查看样本个数和原始特征维度 1 data_train.shape 1 data_test.shape 1 data_train.columns #查看列名 1 2 3 pd.set_option('display.max_info_rows',2699639) #提高非缺失值检查的行数上线 #pd.options.display.max_info_rows = 2699639 data_train.info() 1 2 #查看count 非空值数、std 标准差、（25%、50%、75%）分位数等基本情况 data_train.describe([0.01,0.025,0.05,0.5,0.75,0.9,0.99]) 1.2 查看缺失值和唯一值等 1 data_...

Pandas的一些常用操作_3

今天介绍Pandas对一些常见数据的处理方法。 1 2 3 import numpy as np import pandas as pd df = pd.read_csv('./economics.csv') 1.缺失数据处理 1 df.isna()#是否有缺失值 1 df.isna().mean()#缺失的比例 1 df[df.psavert.isna()]#查看某列是否有缺失值 1 df[df[['psavert','pop','uempmed']].isna().any(1)]#查看所有列至少有一个缺失值的行“any()至少有一个为空,all()都为空” 1 2 df[df[['psavert','pop','uempmed']].notna().all(1)]#查看所有没有缺失值的行 df.loc[df[['psavert',&#...

特征工程就是将原始数据空间变换到新的特征空间，在新的特征空间中，模型能够更好地学习数据中的规律。特征的选择和构造，就是人为地帮助模型学习到原本很难学好的东西，从而使模型达到更好的效果。 1. 根据现实情况构造特征1.1 各点与特定点的距离 1 2 3 4 5 df['x_dis'] = (df['x'] - 6165599).abs() df['y_dis'] = (df['y'] - 5202660).abs() df['base_dis] = (df['y_dis']**2))**0.5 + ((df['x_dis']**2) del df['x_dis'],df['y_dis'] df['base_dis_diff'].head() 1.2 将时间划分为白天与黑夜 1 2 3 df['day_night'] = 0 df.loc[(df['hour'] >...

Pandas的一些常用操作_2

今天继续介绍几个常用的Pandas操作。 1 2 3 import numpy as np import pandas as pd df = pd.read_csv('./economics.csv') 1.DataFrame的apply方法 1 df[['psavert','uempmed']].apply(lambda x:x.max()-x.min(), axis=1)#axis=1 将函数应用到列 1 df.applymap(lambda x:x*10)#applymap 将函数应用到每个元素 2.DataFrame的分组 1 df.groupby('unemploy')['psavert'].median()#样例:df.groupby(分组依据)[数据来源].使用操作 1 2 condition = df.unemploy > df.unemploy.mean()#使用condition定...