本文介绍了信息论特征选择方法的现状,阐明了特征相关性、冗余性和补充性(协同作用)的概念,以及马尔科夫毯子。定义了最优特征选择的问题。我们描述了一个统一的理论框架,它可以使成功的启发式标准符合相应方法所做的近似。还介绍了该领域中的一些未解决问题。
Sep, 2015
本文介绍了一个在线高度可扩展的特征选择算法-SAOLA,它使用新颖的成对比较技术,在线维护一个简便的模型。并提出了一个扩展的SAOLA算法,即在线群组特征选择算法,能够同时稀疏地维护一组特征组合和单个特征。实验证明,SAOLA和群组SAOLA算法在高度维度的数据集上均具有良好的性能。
Nov, 2015
本篇综述旨在回顾并总结近年来针对传统数据、结构化数据、异构数据、流数据的特征选择算法的研究进展,以及介绍一种特征选择仓库来方便算法研究,并提出一些未来研究中需要关注的问题。
Jan, 2016
提出一种基于核独立性度量的特征选择方法,通过约束优化问题中的条件协方差算子的痕迹,选择预测响应的最大子集,证明了该方法的一些一致性结果,并证明了我们的方法在各种合成和实际数据集上具有与其他最先进的算法相比的优势。
Jul, 2017
本研究旨在研究条件特征选择问题,提出了一种基于 knockoff 程序泛化的算法,在控制条件下实现特征选取并保证伪发现率,应用于基因相关研究中。
May, 2019
该论文提出了一个面向数据的AI框架,可以自动选择重要特征,实现自动发现不同的数据子组并提高检测性能。通过在MIMIC-III和Allstate Claims公开数据集上的验证,该框架比现有的六种特征选择方法减少了81倍和104倍的特征选择时间,并实现了有竞争力的检测性能。
Mar, 2022
本文提出了一种通过增加独特关联系统来改善高维数据集下特征选择的方法,并提出了两个方案来评估独特关联性。实验结果表明,提出的方法可以在减少特征数量的同时提高分类性能,其对分类器性能的依赖性相对较低。
Dec, 2022
本文提出了两种基于非线性变换和广义线性模型的降维算法,分别适用于回归和分类问题,测试表明算法效果竞争力强。
Jun, 2023
研究高维数据集中的特征选择方法及其发展,包括单变量相关性排名算法、关联-冗余折衷和基于多变量依赖性的方法,并总结文献中各种方法的贡献,同时介绍当前的问题和挑战,以确定未来的研究和发展方向。
特征选择是一种流行的方法,可以获得小型、可解释且高度准确的预测模型。本文介绍了一种名为“替代特征选择”的方法,并将其形式化为一个优化问题。我们定义了替代特征集合的约束条件,并允许用户控制替代特征的数量和差异性。进一步分析了该优化问题的复杂性并证明了其NP-hardness。最后,我们使用30个分类数据集评估了替代特征选择的效果,并观察到替代特征集合可能具有较高的预测质量,并分析了影响这一结果的几个因素。
Jul, 2023