EDA——数据探索性分析,是通过了解数据集的基本情况、变量间的相互关系以及变量与预测值之间的关系,为后期特征工程和建立模型做铺垫。本文以智慧海洋建设竞赛为例进行演示。
1. 总体了解数据
1.1 查看样本个数和原始特征维度
1 | data_train.shape |
1 | data_test.shape |
1 | data_train.columns #查看列名 |
1 | pd.set_option('display.max_info_rows',2699639) #提高非缺失值检查的行数上线 |
1 | #查看count 非空值数、std 标准差、(25%、50%、75%)分位数等基本情况 |