avatar
文章
538
标签
109
分类
29
首页
归档
分类
标签
关于
xhj的博客
首页
归档
分类
标签
关于

xhj的博客

地理数据分析常用工具
发表于2021-04-15|Python
在地理空间数据分析中,常用一些模块进行地理数据分析、特征提取及可视化,包括shapely、geopandas、folium、kepler.gl、geohash等工具。 1. shapelyshapely是基于笛卡尔坐标的几何对象操作和分析Python库,底层基于GEOS和JTS拓扑运算库。 1.1 Point对象 1 2 3 4 5 6 7 8 9 10 11 from shapely.geometry import Point point1 = Point(1, 1) point2 = Point(5, 5) point3 = Point(10, 10) #点的可视化 geo.GeometryCollection([point1,point2,point3]) #Point转为numpy数组 print(np.array(point)) 1.2 LineString对象 1 2 3 # 创建LineString对象 line1 = geo.LineString([(0,0),(2,-2.2),(3,3.3),(4,-4.4),(5,-5.5...
LightGBM调参_1
发表于2021-03-26|Machine Learning
#1简单列举一下日常调参过程中常用的几种方法,具体的原理下次补上。 1. 经验法: 往两个方向调: 1.提高准确率:max_depth, num_leaves, learning_rate 2.降低过拟合:max_bin, min_data_in_leaf;L1, L2正则化;数据抽样, 列采样 1.使用较小的num_leaves,max_depth和max_bin,降低复杂度。 2.使用min_data_in_leaf和min_sum_hessian_in_leaf,该值越大,模型的学习越保守。 3.设置bagging_freq和bagging_fraction使用bagging。 4.设置feature_fraction进行特征采样。 5.使用lambda_l1,lambda_l2和min_gain_to_split正则化。 2. 贪心调参:先调整对模型影响最大的参数,再调整对模型影响次大的参数,缺点是容易调成局部最优,需要多次调试。日常调参顺序如下: ① num_leaves, max_depth ② min_data_in_leaf, min_child_weight ...
Tsfresh——自动化特征工程工具
发表于2021-03-25|Python
改进模型的潜在途径之一是:生成更多的潜在特征,输入更多的样本。 Tsfresh是处理时间序列数据的特征工程工具,能够自动计算大量时间序列特征,如平均值、最大值、峰度等。之后,可以使用这些特征集构建机器学习模型。 本文以天池-心跳信号分类预测为例,演示tsfresh工具的用法。 使用示例1. 合并train和test数据合并数据集,对整体数据做统一的特征工程。(注意需要为test数据添加label列,值为-1,方便后续操作) 1 2 data_test['label'] = -1 all_data = pd.concat((data_train, data_test)).reset_index(drop = True) 2. 对原特征一列拆成多列,并为每条数据添加时间特征time 1 all_heatbeat_df = all_data['heartbeat_signals'].str.split(',', expand = True).stack() 3. Index处理 1 ...
特征选择_1
发表于2021-03-20|Machine Learning
在数据预处理过程中,特征选择是一个重要的过程,选择出重要的特征可以加快模型训练速度。通常可以从以下两方面来选择特征: 1.特征是否发散(对于样本区分作用的大小)2.特征与标签的相关性 特征选择的方法主要有3种: 1.Filter Method:先根据统计量设置阈值选择特征,之后再训练模型。2.Wrapper Method:把最终将要使用的模型的性能作为特征子集的评价标准,多次训练模型选择有利于模型性能的特征子集。3.Embedding Method:将特征选择过程与模型训练过程融为一体,在模型训练的过程中自动进行特征选择。 常用sklearn中的feature_selection库来进行特征选择。 1. Fliter 过滤法: Fliter的优点在于只训练一次模型,速度快。但是选择与标签相关性最强的特征子集不一定是最佳特征,甚至可能对结果负优化。 1.1 方差选择法计算各个特征的方差,设置阈值,选择方差大于阈值的特征。 1 2 3 from sklearn.feature_selection import VarianceThreshold #参数thr...
模型融合_1
发表于2021-03-15|Machine Learning
Kaggle和天池比赛中常用提高成绩的三种方法: 1.特征工程2.模型调参3.模型融合模型融合主要有以下几种方式: 简单加权融合: ①回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);②分类:投票(Voting)③综合:排序融合(Rank averaging),log融合 stacking/blending: 构建多层模型,把初级学习器的输出当作下一层的输入。 boosting/bagging(在xgboost,Adaboost,GBDT中已经用到): 多个分类器的整合 部分代码案例:1.简单加权平均 1 2 3 4 5 def Weighted_method(test_pre1,test_pre2,test_pre3,w=[1/3,1/3,1/3]): Weighted_result = w[0]*pd.Series(test_pre1)+w[1]*pd.Series(test_pre2)+w[2]*pd.Series(test_pre3) return W...
Pandas的一些常用操作_1
发表于2021-02-21|Python
今天介绍几个常用的Pandas操作。 1 2 3 import numpy as np import pandas as pd df = pd.read_csv('./economics.csv') 1.DataFrame to markdown/latexdataframe可以转换为许多常用格式,如csv,excel,sql,json,html,latex等等,这里以markdown和latex为例。 1 2 print(df.to_markdown()) print(df.to_latex()) or 1 2 df.to_markdown('table.md') df.to_latex('table.tex') 也可以自定义输出latex格式,如表格宽度。 1 df.to_latex('tb.tex',column_format='lp{1.8cm}p{1.8cm}p{1.8cm}p{1.8cm}p{1.8cm}p{...
Pandas的一些常用操作_3
发表于2021-02-21|Python
今天介绍Pandas对一些常见数据的处理方法。 1 2 3 import numpy as np import pandas as pd df = pd.read_csv('./economics.csv') 1.缺失数据处理 1 df.isna()#是否有缺失值 1 df.isna().mean()#缺失的比例 1 df[df.psavert.isna()]#查看某列是否有缺失值 1 df[df[['psavert','pop','uempmed']].isna().any(1)]#查看所有列至少有一个缺失值的行“any()至少有一个为空,all()都为空” 1 2 df[df[['psavert','pop','uempmed']].notna().all(1)]#查看所有没有缺失值的行 df.loc[df[['psavert',&#...
Pandas的一些常用操作_2
发表于2021-02-21|Python
今天继续介绍几个常用的Pandas操作。 1 2 3 import numpy as np import pandas as pd df = pd.read_csv('./economics.csv') 1.DataFrame的apply方法 1 df[['psavert','uempmed']].apply(lambda x:x.max()-x.min(), axis=1)#axis=1 将函数应用到列 1 df.applymap(lambda x:x*10)#applymap 将函数应用到每个元素 2.DataFrame的分组 1 df.groupby('unemploy')['psavert'].median()#样例:df.groupby(分组依据)[数据来源].使用操作 1 2 condition = df.unemploy > df.unemploy.mean()#使用condition定...
1…5354
avatar
xhj
相关学习笔记
文章
538
标签
109
分类
29
Follow Me
公告
欢迎来到我的博客
最新文章
Claude Code 的远程会话与桥接能力2026-07-24
Claude Code 的多 Agent 与子任务机制2026-07-23
Claude Code 的 Skills 系统2026-07-22
插件、Skills 与 Agent 派生:Claude Code 如何走向平台化2026-07-21
MCP 与 LSP 集成2026-07-20
分类
  • AI Agent40
  • Algorithm20
  • Backend Dev74
  • Big Data2
  • C/C++2
  • Claude Code118
  • Computer Basics18
  • Computer Network2
标签
JVM Graph MLP voting NMF RabbitMQ Linear Regression BFS Tornado DBSCAN Dynamic Programming Git Message Queue Java PCV dijkstra Maven Bayesian optimization Sort Claude Code PCA HBOS DataFrame JVM Performance Monitoring Embedding Garbage Collection Overview BinarySearch Golang Backend Dev HTTP SQL UnionFind JDBC Kafka Neural Networks TwoPointer OLSE Gradient descent GIN Zookeeper
归档
  • 七月 2026 24
  • 六月 2026 26
  • 五月 2026 25
  • 四月 2026 16
  • 三月 2026 20
  • 二月 2026 10
  • 一月 2026 22
  • 十二月 2025 15
网站信息
文章数目 :
538
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By xhj框架 Hexo 8.1.2|主题 Butterfly 5.5.4