avatar
文章
491
标签
109
分类
29
首页
归档
分类
标签
关于
xhj的博客
首页
归档
分类
标签
关于

xhj的博客

异常检测(Anomaly Detection)简介
发表于2021-05-12|Machine Learning
异常检测顾名思义就是检测出与正常数据不同的数据,检测给定的新数据是否属于这组数据集。 1. 异常检测的任务类型无监督:训练集无标签有监督:训练集的正例和反例均有标签半监督:在训练集中只有正例,异常实例不参与训练 2. 异常检测的难点数据量少:异常检测任务通常情况下负样本(abnormal)较少,0、1两类样本严重不均衡,有时候依赖于人工标签。噪音:异常和噪音有时容易混淆,如两幅图中的A点识别难度就不一样。 3. 异常检测方法简介3.1 基于统计学的方法通常做法是假设样本服从高斯分布,计算p(x)=ϵ作为判定正常和异常的阈值。 3.2 线性模型在线性模型中,有2个假设:①不同维度的变量近似线性相关,可以通过一个相关系数矩阵进行衡量。②数据是镶嵌在低维子空间中的,线性建模是为了找到某个低维子空间使异常点区别于正常点。常用模型的包括:最小二乘法——最小化目标函数得到直线方程,计算每个变量与回归方程之间的残差,可通过3σ 法则判断异常值.PCA——将样本的协方差矩阵特征值分解后,特征值是样本投影到轴上对应的方差,特征值越小,投影后样本点分布越集中,异常点容易偏离,以此作为判定异...
特征工程_1
发表于2021-04-21|Machine Learning
特征工程就是将原始数据空间变换到新的特征空间,在新的特征空间中,模型能够更好地学习数据中的规律。特征的选择和构造,就是人为地帮助模型学习到原本很难学好的东西,从而使模型达到更好的效果。 1. 根据现实情况构造特征1.1 各点与特定点的距离 1 2 3 4 5 df['x_dis'] = (df['x'] - 6165599).abs() df['y_dis'] = (df['y'] - 5202660).abs() df['base_dis] = (df['y_dis']**2))**0.5 + ((df['x_dis']**2) del df['x_dis'],df['y_dis'] df['base_dis_diff'].head() 1.2 将时间划分为白天与黑夜 1 2 3 df['day_night'] = 0 df.loc[(df['hour'] >...
地理空间数据EDA数据探索性分析
发表于2021-04-17|Python
EDA——数据探索性分析,是通过了解数据集的基本情况、变量间的相互关系以及变量与预测值之间的关系,为后期特征工程和建立模型做铺垫。本文以智慧海洋建设竞赛为例进行演示。 1. 总体了解数据1.1 查看样本个数和原始特征维度 1 data_train.shape 1 data_test.shape 1 data_train.columns #查看列名 1 2 3 pd.set_option('display.max_info_rows',2699639) #提高非缺失值检查的行数上线 #pd.options.display.max_info_rows = 2699639 data_train.info() 1 2 #查看count 非空值数、std 标准差、(25%、50%、75%)分位数等基本情况 data_train.describe([0.01,0.025,0.05,0.5,0.75,0.9,0.99]) 1.2 查看缺失值和唯一值等 1 data_...
地理数据分析常用工具
发表于2021-04-15|Python
在地理空间数据分析中,常用一些模块进行地理数据分析、特征提取及可视化,包括shapely、geopandas、folium、kepler.gl、geohash等工具。 1. shapelyshapely是基于笛卡尔坐标的几何对象操作和分析Python库,底层基于GEOS和JTS拓扑运算库。 1.1 Point对象 1 2 3 4 5 6 7 8 9 10 11 from shapely.geometry import Point point1 = Point(1, 1) point2 = Point(5, 5) point3 = Point(10, 10) #点的可视化 geo.GeometryCollection([point1,point2,point3]) #Point转为numpy数组 print(np.array(point)) 1.2 LineString对象 1 2 3 # 创建LineString对象 line1 = geo.LineString([(0,0),(2,-2.2),(3,3.3),(4,-4.4),(5,-5.5...
LightGBM调参_1
发表于2021-03-26|Machine Learning
#1简单列举一下日常调参过程中常用的几种方法,具体的原理下次补上。 1. 经验法: 往两个方向调: 1.提高准确率:max_depth, num_leaves, learning_rate 2.降低过拟合:max_bin, min_data_in_leaf;L1, L2正则化;数据抽样, 列采样 1.使用较小的num_leaves,max_depth和max_bin,降低复杂度。 2.使用min_data_in_leaf和min_sum_hessian_in_leaf,该值越大,模型的学习越保守。 3.设置bagging_freq和bagging_fraction使用bagging。 4.设置feature_fraction进行特征采样。 5.使用lambda_l1,lambda_l2和min_gain_to_split正则化。 2. 贪心调参:先调整对模型影响最大的参数,再调整对模型影响次大的参数,缺点是容易调成局部最优,需要多次调试。日常调参顺序如下: ① num_leaves, max_depth ② min_data_in_leaf, min_child_weight ...
Tsfresh——自动化特征工程工具
发表于2021-03-25|Python
改进模型的潜在途径之一是:生成更多的潜在特征,输入更多的样本。 Tsfresh是处理时间序列数据的特征工程工具,能够自动计算大量时间序列特征,如平均值、最大值、峰度等。之后,可以使用这些特征集构建机器学习模型。 本文以天池-心跳信号分类预测为例,演示tsfresh工具的用法。 使用示例1. 合并train和test数据合并数据集,对整体数据做统一的特征工程。(注意需要为test数据添加label列,值为-1,方便后续操作) 1 2 data_test['label'] = -1 all_data = pd.concat((data_train, data_test)).reset_index(drop = True) 2. 对原特征一列拆成多列,并为每条数据添加时间特征time 1 all_heatbeat_df = all_data['heartbeat_signals'].str.split(',', expand = True).stack() 3. Index处理 1 ...
特征选择_1
发表于2021-03-20|Machine Learning
在数据预处理过程中,特征选择是一个重要的过程,选择出重要的特征可以加快模型训练速度。通常可以从以下两方面来选择特征: 1.特征是否发散(对于样本区分作用的大小)2.特征与标签的相关性 特征选择的方法主要有3种: 1.Filter Method:先根据统计量设置阈值选择特征,之后再训练模型。2.Wrapper Method:把最终将要使用的模型的性能作为特征子集的评价标准,多次训练模型选择有利于模型性能的特征子集。3.Embedding Method:将特征选择过程与模型训练过程融为一体,在模型训练的过程中自动进行特征选择。 常用sklearn中的feature_selection库来进行特征选择。 1. Fliter 过滤法: Fliter的优点在于只训练一次模型,速度快。但是选择与标签相关性最强的特征子集不一定是最佳特征,甚至可能对结果负优化。 1.1 方差选择法计算各个特征的方差,设置阈值,选择方差大于阈值的特征。 1 2 3 from sklearn.feature_selection import VarianceThreshold #参数thr...
模型融合_1
发表于2021-03-15|Machine Learning
Kaggle和天池比赛中常用提高成绩的三种方法: 1.特征工程2.模型调参3.模型融合模型融合主要有以下几种方式: 简单加权融合: ①回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);②分类:投票(Voting)③综合:排序融合(Rank averaging),log融合 stacking/blending: 构建多层模型,把初级学习器的输出当作下一层的输入。 boosting/bagging(在xgboost,Adaboost,GBDT中已经用到): 多个分类器的整合 部分代码案例:1.简单加权平均 1 2 3 4 5 def Weighted_method(test_pre1,test_pre2,test_pre3,w=[1/3,1/3,1/3]): Weighted_result = w[0]*pd.Series(test_pre1)+w[1]*pd.Series(test_pre2)+w[2]*pd.Series(test_pre3) return W...
Pandas的一些常用操作_1
发表于2021-02-21|Python
今天介绍几个常用的Pandas操作。 1 2 3 import numpy as np import pandas as pd df = pd.read_csv('./economics.csv') 1.DataFrame to markdown/latexdataframe可以转换为许多常用格式,如csv,excel,sql,json,html,latex等等,这里以markdown和latex为例。 1 2 print(df.to_markdown()) print(df.to_latex()) or 1 2 df.to_markdown('table.md') df.to_latex('table.tex') 也可以自定义输出latex格式,如表格宽度。 1 df.to_latex('tb.tex',column_format='lp{1.8cm}p{1.8cm}p{1.8cm}p{1.8cm}p{1.8cm}p{...
Pandas的一些常用操作_2
发表于2021-02-21|Python
今天继续介绍几个常用的Pandas操作。 1 2 3 import numpy as np import pandas as pd df = pd.read_csv('./economics.csv') 1.DataFrame的apply方法 1 df[['psavert','uempmed']].apply(lambda x:x.max()-x.min(), axis=1)#axis=1 将函数应用到列 1 df.applymap(lambda x:x*10)#applymap 将函数应用到每个元素 2.DataFrame的分组 1 df.groupby('unemploy')['psavert'].median()#样例:df.groupby(分组依据)[数据来源].使用操作 1 2 condition = df.unemploy > df.unemploy.mean()#使用condition定...
1…484950
avatar
xhj
相关学习笔记
文章
491
标签
109
分类
29
Follow Me
公告
欢迎来到我的博客
最新文章
Multi-Agent2026-06-03
Multi-Agent vs Single-Agent2026-06-02
Harness Engineering2026-06-01
25-架构模式总结2026-05-25
24-Skill-Plugin开发实战2026-05-24
分类
  • AI Agent40
  • Algorithm20
  • Backend Dev74
  • Big Data2
  • C/C++2
  • Claude Code71
  • Computer Basics18
  • Computer Network2
标签
Netty PyG Stacking Pandas Neural Networks PCA Maven Tornado PCV RabbitMQ Claude Code Heap Memory Tree dijkstra Redis GAT MySQL Computer Basics JVM Architecture Linear Regression List Kruskal Algorithm Object Identification Message Queue Gradient descent HBOS LOF Grid search OSI Embedding OLSE Prim NMF DataFrame AI Agent Kafka GNN Thread Compilation
归档
  • 六月 2026 3
  • 五月 2026 25
  • 四月 2026 16
  • 三月 2026 20
  • 二月 2026 10
  • 一月 2026 22
  • 十二月 2025 15
  • 十一月 2025 19
网站信息
文章数目 :
491
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By xhj框架 Hexo 8.1.2|主题 Butterfly 5.5.4