特征工程

时间:2019-09-07
本文章向大家介绍特征工程,主要包括特征工程使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

一、特征选择

(1)特征来源:

    1、已经处理好的特征数据

    2、从业务特征中自己去寻找高级数据特征

(2)选择合适的特征:

    1、寻找该领域专家,向他们寻求建议

    2、方差筛选

    3、过滤法

    4、包装法

    5、嵌入法

(3) 寻找高级特征

    1、若干项特征向加和

    2、若干项特征相乘

    3、若干项特征之差

    4、若干项特征除商

二、特征表达(如何对某一特征的具体表现形式做处理

(1)缺失值处理

    1、对连续值来说:取平均值、中位数进行缺失值补充

    2、对离散值来说:最频繁出现的类别

(2)特殊的特征处理

  一般有些特征的默认值取值比较特殊,一般需要做了处理后才能用于算法

    1、对于时间特征:采用连续的时间差值法;转化为若干离散特征;权重法

    2、对地理特征:可以转化为经度和维度连续特征值

(3)离散特征的连续处理:

    1、独热编码one-hot encoding

    2、特征嵌入embedding

(4)离散特征的离散化:

    1、独热编码

    2、虚拟编码

(5) 连续特征离散化

三、特征预处理

(1)特征的标准化与归一化

    1、z-score标准化

    2、max-min标准化

    3、L1、L2范数标准化

(2)异常特征样本清洗

    1、聚类

    2、异常点检测

(3)处理不平衡数据

    1、权重法

    2、采样法

参考:https://www.cnblogs.com/pinard/p/9093890.html

   https://www.cnblogs.com/pinard/p/9061549.html

   https://www.cnblogs.com/pinard/p/9061549.html

原文地址:https://www.cnblogs.com/spp666/p/11479999.html