特征工程是机器学习和数据挖掘中的一个关键步骤,它涉及从原始数据中提取、构建和选择对模型预测有用的特征。以下是一些常用的特征工程方法:
统计特征
均值、标准差、最大值、最小值等。
类别特征处理
One-Hot编码或哑码编码,将离散特征转换成多个二值特征。
比例特征
计算类别特征在特定数据集中出现的概率。
时间序列特征
用户购买时间差、用户活跃时间等。
交叉特征
将用户ID和商品ID组合,表示用户对商品的特征。
特征抽取
基于TF-IDF和Word2Vec的文本特征抽取。
特征组合
将低维离散特征进行组合,例如年龄段的组合。
特征变换
使用log函数、开根号等常用特征变换方式。
特征缩放
数值特征归一化操作及标准化操作。
时间窗口划分衍生特征
将时间戳属性分离成多个维度,如年、月、日、小时、分钟、秒钟,并根据需要选择相关维度。
分解类别属性
将类别型属性转换成二元属性,例如通过独热编码(One-Hot Encoding)。
分箱/分区
将数值型属性划分成确定的块,以减少噪声干扰并提高模型性能。
趋势特征
提取经济增长趋势、购买力变化趋势等。
特征创建
从现有数据中生成新特征,例如通过组合两个或多个现有特征,或对现有特征应用数学或统计函数。
特征选择
识别特定任务中最相关的特征,包括过滤方法、包装方法和嵌入方法。
降维
降低数据集的维度,同时尽量保留重要信息,例如主成分分析(PCA)。
维度不变的特征工程方法
包括标准化(如最大最小值标准化和z-score标准化)。
这些方法可以根据具体的数据集和应用场景进行选择和组合,以达到最佳的模型性能。特征工程是一个迭代的过程,可能需要多次尝试和调整才能找到最适合的特征集合。