特征选择：基于数据的视角

Jan, 2016

Feature Selection: A Data Perspective

Jundong Li, Kewei Cheng, Suhang Wang, Fred Morstatter, Robert P. Trevino...

TL;DR本篇综述旨在回顾并总结近年来针对传统数据、结构化数据、异构数据、流数据的特征选择算法的研究进展，以及介绍一种特征选择仓库来方便算法研究，并提出一些未来研究中需要关注的问题。

Abstract

feature selection, as a data preprocessing strategy, has been proven to be effective and efficient in preparing data (especially high-dimensional data) for various data mining and →

feature selection big data data mining machine learning algorithms

发现论文，激发创造

特征选择调查

本文综述了不同的特征选择方法及其与机器学习算法之间的关系，阐述了特征选择在数据挖掘过程中的重要性，特别是在处理数量过多的特征时，可以降低计算负担和提高机器学习任务的准确性。

Oct, 2015

特征选择：关于属性间合作的视角

研究高维数据集中的特征选择方法及其发展，包括单变量相关性排名算法、关联 - 冗余折衷和基于多变量依赖性的方法，并总结文献中各种方法的贡献，同时介绍当前的问题和挑战，以确定未来的研究和发展方向。

Jun, 2023

一种用于机器学习中的高维数据集的基于对比的特征选择算法

通过选择最具信息量的特征并消除无关的特征，我们提出了一种新的基于差异性特征的滤波特征选择方法 ContrastFS，该方法能够在大型数据集上有效地降低计算成本，而且性能优于其他最先进的特征选择方法。

Jan, 2024

利用替代特征选择找到最佳的多样特征集

特征选择是一种流行的方法，可以获得小型、可解释且高度准确的预测模型。本文介绍了一种名为 “替代特征选择” 的方法，并将其形式化为一个优化问题。我们定义了替代特征集合的约束条件，并允许用户控制替代特征的数量和差异性。进一步分析了该优化问题的复杂性并证明了其 NP-hardness。最后，我们使用 30 个分类数据集评估了替代特征选择的效果，并观察到替代特征集合可能具有较高的预测质量，并分析了影响这一结果的几个因素。

Jul, 2023

模型选择技术概述

本文综述了模型选择领域的各种方法，包括统计，信息论和信号处理等方面的研究。讨论了模型选择的意义、表现和适用性，并提供了一些关于实践中的争议观点。

Oct, 2018

无监督特征选择方法的性能分析

本文比较了不同算法在特征选择方面的效果，结果表明 PCA、Rough PCA、USQR 和 EDR 算法能够快速筛选出对数据分类最相关的特征。

Jun, 2013

语言模型数据选择调查

该论文综述了大型语言模型、数据选择方法、经验证据、大规模数据选择研究和未来研究方向的相关领域，旨在为新老研究人员提供入门点，加速数据选择领域的进展。

Feb, 2024

特征合奏：判别特征选择遇见无监督聚类

本文提出了一种高效的算法，以一种高效、紧凑的方式从候选项中发现输入特征或分类器的稀疏表示，用于大规模识别，并在训练速度和性能方面显着优于传统方法和强大的分类器，特别是在有限的训练数据的情况下。

Nov, 2014

评估机器学习模型在表格数据上的数据中心视角

通过从 Kaggle 竞赛中选择 10 个相关数据集，实现专家级预处理流程，并进行实验以量化模型选择、超参数优化、特征工程和测试时间适应的影响，我们的主要发现是：1. 数据集特定的特征工程后，模型排名发生了显著变化，性能差异减小，模型选择的重要性降低。2. 最新模型虽然取得了可衡量的进步，但仍然极大受益于手动特征工程，这对基于树的模型和神经网络都适用。3. 虽然通常认为表格数据是静态的，但样本经常随着时间的推移而收集，适应分布的变化即使在所谓的静态数据中也很重要。这些观点表明研究应关注数据为中心的视角，承认表格数据需要特征工程，并且通常具有时间特性。

Jul, 2024

支持向量机的成本敏感特征选择

通过数学优化的特征选择过程嵌入到支持向量机分类过程中，结合了不对称的分类错误代价，旨在减少特征数量并保持误分类率的平衡。

Jan, 2024