特征选择:基于数据的视角
本文综述了不同的特征选择方法及其与机器学习算法之间的关系,阐述了特征选择在数据挖掘过程中的重要性,特别是在处理数量过多的特征时,可以降低计算负担和提高机器学习任务的准确性。
Oct, 2015
研究高维数据集中的特征选择方法及其发展,包括单变量相关性排名算法、关联 - 冗余折衷和基于多变量依赖性的方法,并总结文献中各种方法的贡献,同时介绍当前的问题和挑战,以确定未来的研究和发展方向。
Jun, 2023
通过选择最具信息量的特征并消除无关的特征,我们提出了一种新的基于差异性特征的滤波特征选择方法 ContrastFS,该方法能够在大型数据集上有效地降低计算成本,而且性能优于其他最先进的特征选择方法。
Jan, 2024
特征选择是一种流行的方法,可以获得小型、可解释且高度准确的预测模型。本文介绍了一种名为 “替代特征选择” 的方法,并将其形式化为一个优化问题。我们定义了替代特征集合的约束条件,并允许用户控制替代特征的数量和差异性。进一步分析了该优化问题的复杂性并证明了其 NP-hardness。最后,我们使用 30 个分类数据集评估了替代特征选择的效果,并观察到替代特征集合可能具有较高的预测质量,并分析了影响这一结果的几个因素。
Jul, 2023
本文提出了一种高效的算法,以一种高效、紧凑的方式从候选项中发现输入特征或分类器的稀疏表示,用于大规模识别,并在训练速度和性能方面显着优于传统方法和强大的分类器,特别是在有限的训练数据的情况下。
Nov, 2014
通过从 Kaggle 竞赛中选择 10 个相关数据集,实现专家级预处理流程,并进行实验以量化模型选择、超参数优化、特征工程和测试时间适应的影响,我们的主要发现是:1. 数据集特定的特征工程后,模型排名发生了显著变化,性能差异减小,模型选择的重要性降低。2. 最新模型虽然取得了可衡量的进步,但仍然极大受益于手动特征工程,这对基于树的模型和神经网络都适用。3. 虽然通常认为表格数据是静态的,但样本经常随着时间的推移而收集,适应分布的变化即使在所谓的静态数据中也很重要。这些观点表明研究应关注数据为中心的视角,承认表格数据需要特征工程,并且通常具有时间特性。
Jul, 2024