[特征工程]特征选择方法分析和对比

一. 本文简介

特征选择是为了提高机器学习模型的性能和泛化能力而从大量特征中选择最有用和相关的特征。然而，现有的特征选择基准主要关注传统模型和人工构造的数据集，无法很好地评估实际应用中的特征选择方法。为了满足表格深度学习的需求，本研究构建了一个更具挑战性的特征选择基准。该基准使用真实数据集和多种方法生成了冗余特征，评估了包括变换器在内的神经网络模型在这些数据集上的性能。此外，研究人员还提出了一种基于输入梯度的神经网络特征选择方法，类似于经典的Lasso方法。这种方法在处理复杂问题时表现出色，例如选择受损或二阶特征。通过这项研究，研究人员希望推动深度学习领域的表格任务特征选择方法的发展，并提供更好的性能。

二. 背景介绍

2.1 表格数据任务

表格数据是现实世界中机器学习应用中最常见的数据格式。过去，我们主要使用传统的决策树模型（如梯度提升决策树）来处理这些数据。但是，现在的深度学习模型开始在表格数据领域崭露头角，为深度学习在表格数据上的应用带来了新的可能性。最近的研究工作涉及开发新颖的表格神经网络架构，比如基于Transformer模型的架构。还有一些研究对多个可微分学习器进行集成，以提高模型性能。此外，还对基于多层感知机（MLP）的架构进行了修改和正则化，以适应表格数据的特点。这些研究还探索了表格深度学习带来的新能力，比如自监督预训练、迁移学习、少样本学习和数据生成等。这些进展为我们在处理表格数据时提供了更多的选择和技术，有助于改善模型的性能和效果。

2.2 特征选择

应用机器学习时，特征选择是一个重要的步骤，它帮助我们从数据中选择最相关的特征来进行预测任务。为了简化这个过程，许多人都在研究如何自动化特征选择。特征选择方法可以分为三种主要类型：过滤器、包装器和嵌入式方法。过滤器方法根据特征的个体特性和与目标变量的相关性来排名特征，而不考虑具体的学习算法。比如，可以使用统计测试、方差过滤和互信息分数等方法来进行过滤。包装器方法则依赖于具体的算法，在特征子集上反复训练机器学习算法，以找到性能最好的特征子集。例如，贪婪顺序算法、递归特征消除和进化算法等都属于包装器方法。而嵌入式方法将特征选择任务融入到训练过程中，使模型能够在训练过程中学习哪些特征最相关。Lasso是一种经典的嵌入式特征选择算法，也有一些基于深度神经网络的改进方法。此外，基于树的算法如随机森林和梯度提升决策树也具有内置的特征重要性度量，可以自动进行特征选择。最近的一些研究提出了专门的神经网络架构，通过使用knockoff filters、自编码器和专门的门控层来进行嵌入式特征选择。

三. 本文工作

本文创建了一个有趣的特征选择测试，使用真实数据集，并包含了多种方法来创建额外的无关特征。通过观察下游神经网络在不同特征选择方法下的表现来评估这些方法的效果。本文使用了MLP和最新的基于Transformer的深度表格FT-Transformer架构作为下游模型。测试包括12个数据集和3种类型的额外特征。这些数据集是基于最近的研究收集和调整的，并包括各种不同的问题类型。我们使用准确率来衡量分类问题的性能，使用均方根误差（RMSE）来衡量回归问题的性能。我们对特征选择算法和下游模型进行了大量的超参数调优，以获得最佳性能。我们使用了贝叶斯超参数优化引擎Optuna来帮助选择最佳超参数，并对每个模型进行了10次随机初始化的测试。

3.1 分析无关噪声的影响

我们研究了无关特征对表格型神经网络的影响，并评估了包含不同数量无关噪声特征的数据集上MLP和FT-Transformer模型的性能。为了进行比较，我们还引入了使用流行的XGBoost模型。下图展示了这些模型在数据集中无关特征比例变化时的性能情况。与以前的研究一致，我们发现MLP架构对无关特征的过拟合问题比XGBoost更严重。这说明在使用表格型神经网络时，需要仔细进行特征选择。有趣的是，从图1中蓝色和绿色曲线的斜率可以看出，FT-Transformer模型对噪声特征的鲁棒性与XGBoost模型相当。FT-Transformer模型的性能没有受到噪声特征的严重影响，可能是由于其注意力机制可以过滤掉无关特征。受到这一观察的启发，我们进一步研究了在我们的基准测试中，利用FT-Transformer中的注意力图重要性作为特征选择方法的有效性。

3.2 定义对特征选择评价方法

在现实世界的数据集中，很少会出现完全随机且没有任何预测能力的噪声特征。实际上，经过数据工程处理的特征通常会包含不同程度的冗余和噪声。然而，特征选择算法通常在包含从高斯噪声中生成的虚假特征的数据集上进行评估。这种评估方法与真实世界的特征选择场景存在很大差异，并且对许多特征选择算法来说，消除这些随机特征是相对简单的任务。为了建立一个更具挑战性和真实性的特征选择基准测试，研究人员提出了一种替代方法。

这个基准测试包括三种不同的额外特征生成方法：

随机特征：从高斯分布中随机采样无关的特征，并将它们与原始数据集的特征进行合并。
损坏特征：为了模拟具有噪声但仍然与目标相关的特征，从原始特征中采样额外的特征，并用高斯噪声进行损坏。此外，还使用拉普拉斯噪声进行实验。
二阶特征：为了模拟特征工程中包含冗余信息的情况，添加原始特征的乘积作为二阶特征。

需要注意的是，高阶特征不是虚假的，数据科学家通常使用它们，因为它们可能包含有用的信息。因此，选择高阶特征而不是原始特征可能并不是一件坏事。但这样的特征选择算法必须根据下游模型的性能进行评估。
为了评估提出的基准测试的难度，研究人员探索了不同特征选择算法将额外特征排在前k个最重要特征中的频率，其中k表示数据集中原始特征的数量。结果显示，所有方法选择的随机特征较少，而选择的损坏特征和二阶特征较多。此外，通过分析不同选择算法生成的特征排名之间的平均Spearman相关性，可以量化不同特征选择方法之间的整体一致性。研究发现，涉及随机额外特征的设置具有最高的相关性，这表明过滤掉随机特征相对简单，所有特征选择算法的行为相似。相反，涉及二阶额外特征的设置具有最低的排名相关性，这意味着算法之间在选择偏好方面存在更大的差异。

3.3 Deep Lasso特征选择方法

Deep Lasso是一种特征选择方法，适用于深度表格模型和其他可微分模型。它通过在训练过程中对损失函数对输入特征的梯度施加惩罚，鼓励模型对不重要的特征的梯度变得稀疏。这样做的好处是，当不重要的特征发生变化时，模型能够更加鲁棒地应对。具体来说，Deep Lasso使用Group Lasso惩罚（公式1）来约束损失函数对输入特征的梯度。这个惩罚项对每个特征的梯度进行平方求和，并将其作为正则化项加入到训练过程中。这样一来，在训练完成后，我们可以通过计算每个特征梯度的模长来得到特征的重要性（公式2）。

需要注意的是，在线性回归情况下，经典的Lasso方法与Deep Lasso方法是等价的，因为在线性模型中，特征的梯度就是其权重。此外，Deep Lasso方法与其他方法（如利用输入梯度提高模型解释性的方法）也有一定的相关性。

四. 实验分析

研究人员构建了一个具有挑战性的特征选择基准测试，使用真实数据集并包含多种方法来构建额外的特征。他们通过评估下游神经网络的性能来评估特征选择方法的效果。该研究的目标是设计一个具有挑战性的特征选择基准测试，以帮助评估不同方法在实际应用中的效果。通过使用真实数据集和实际任务指标，研究人员能够更准确地评估特征选择方法的性能。这有助于进一步改进特征选择算法，并为数据科学家提供更好的工具来处理实际世界的特征选择问题。

4.1 对比方法

以下是选择的几种对比方法：

单变量统计检验：这种方法通过检查预测变量与目标变量之间的线性关系来选择特征。它使用ANOVA F值（用于分类问题）或单变量线性回归测试的F值（用于回归问题）来评估特征的重要性。
Lasso：这是一种线性回归模型，通过使用L1正则化来鼓励稀疏性。它根据模型中的系数大小对特征进行排序。
第一层Lasso（1L Lasso）：这是对多层神经网络（MLP）的Lasso方法的扩展。它对第一层参数的权重应用了Group Lasso惩罚，并根据第一层中的权重对特征进行排序。
自适应Group Lasso（AGL）：这是对Group Lasso方法的扩展，它对第一层参数的权重应用Group Lasso惩罚，并使用自适应权重对系数进行加权。它根据第一层中的权重对特征进行排序。
LassoNet：这是一种神经网络架构，它结合了特征选择。它通过添加一个跳跃（残差）层，并仅在跳跃连接处激活时允许特征参与。
随机森林（RF）：这是一种决策树的集成方法，通过考虑特征对整个集成模型的贡献来评估特征的重要性。
XGBoost：这是一种梯度提升决策树的实现，通过计算特征在决策树中的平均增益来评估特征的重要性。
注意力图重要性（AM）：对于FT-Transformer模型，通过对验证集进行一次前向传播计算。特征的重要性是通过计算所有层、头部和验证样本中[CLS]标记的平均注意力图来确定的。

4.2 实验结果

我们进行了针对下游MLP和FT-Transformer模型的特征选择方法的基准测试。我们测试了不同的特征选择算法在包含额外特征的数据集上的性能。根据分类准确性和回归问题的负均方根误差，我们评估了这些算法在模型训练中选出的特征的表现。我们发现没有一种特征选择方法能在所有数据集和额外特征类型上表现最佳，但我们发现了一些有趣的结果：

当额外特征是随机生成的高斯噪声时，XGBoost、随机森林、单变量统计检验和Deep Lasso在MLP模型中表现较好，而随机森林和XGBoost在FT-Transformer模型中表现较好。然而，Lasso和其他基于Lasso的方法在这种情况下的性能较差。
当额外特征被损坏时，Deep Lasso和XGBoost表现出色，特别是Deep Lasso在MLP模型中的性能更好，而XGBoost在FT-Transformer模型中稍微更好。
在选择原始特征和二阶特征的情况下，Deep Lasso相对其他方法表现出优越性能。有趣的是，当生成了更多的特征时，Deep Lasso的相对排名较低，这表明Deep Lasso在面对更具挑战的特征选择问题时更加出色。
我们还分析了不同特征选择算法之间的相似性。我们发现随机森林和XGBoost的排名高度相关，表明这两种方法在特征排序方面具有一致性。此外，Deep Lasso与基于Lasso的方法（如经典Lasso、第一层Lasso和自适应组Lasso）以及注意力地图重要性之间存在较高的相关性。

五. 总结展望

本文介绍了一个针对深度表格模型的挑战性特征选择基准测试，旨在提供更真实的特征选择评估场景。这个基准测试使用真实世界的数据集，其中包含了无关紧要、损坏和冗余的特征。通过对各种特征选择方法在基准测试上的全面实验比较，研究人员发现，在随机和损坏的情况下，传统的特征选择方法（如基于树的算法）表现得不错。然而，对于选择二阶特征来说，专门为深度表格模型设计的特征选择方法（如Deep Lasso）表现更好。这表明神经网络在特征选择算法中具有一定的优势。总的来说，这项研究提供了一个全面的新基准测试，还提出了一种新的特征选择方法，并提供了改进深度表格模型性能和鲁棒性的见解。他们还提供了基准测试代码和Deep Lasso实现，以方便其他研究人员进行复现和实际应用。

发布者：股市刺客，转载请注明出处：https://www.95sca.cn/archives/111107
站内所有文章皆来自网络转载或读者投稿，请勿用于商业用途。如有侵权、不妥之处，请联系站长并出示版权证明以便删除。敬请谅解！