一种用于机器学习中的高维数据集的基于对比的特征选择算法
对比分析(CA)是指与相应背景数据集相比,在目标数据集中独特丰富的变化的探索,这些变化源自与给定任务无关的变异源。本文介绍了对比特征选择(CFS),一种在对比分析环境中进行特征选择的方法,通过一种新的信息论分析方法,我们证明了我们的方法在对比分析环境中的表征学习,并且我们经验证实验证明了 CFS 方法在半合成数据集和四个真实生物医学数据集上一致优于以前提出的不针对对比分析环境的先进监督和完全无监督的特征选择方法。我们的方法的开源实现可在此 https URL 找到。
Oct, 2023
本文提出了一种高效的算法,以一种高效、紧凑的方式从候选项中发现输入特征或分类器的稀疏表示,用于大规模识别,并在训练速度和性能方面显着优于传统方法和强大的分类器,特别是在有限的训练数据的情况下。
Nov, 2014
研究高维数据集中的特征选择方法及其发展,包括单变量相关性排名算法、关联 - 冗余折衷和基于多变量依赖性的方法,并总结文献中各种方法的贡献,同时介绍当前的问题和挑战,以确定未来的研究和发展方向。
Jun, 2023
本篇综述旨在回顾并总结近年来针对传统数据、结构化数据、异构数据、流数据的特征选择算法的研究进展,以及介绍一种特征选择仓库来方便算法研究,并提出一些未来研究中需要关注的问题。
Jan, 2016
特征选择是一种流行的方法,可以获得小型、可解释且高度准确的预测模型。本文介绍了一种名为 “替代特征选择” 的方法,并将其形式化为一个优化问题。我们定义了替代特征集合的约束条件,并允许用户控制替代特征的数量和差异性。进一步分析了该优化问题的复杂性并证明了其 NP-hardness。最后,我们使用 30 个分类数据集评估了替代特征选择的效果,并观察到替代特征集合可能具有较高的预测质量,并分析了影响这一结果的几个因素。
Jul, 2023
本文综述了不同的特征选择方法及其与机器学习算法之间的关系,阐述了特征选择在数据挖掘过程中的重要性,特别是在处理数量过多的特征时,可以降低计算负担和提高机器学习任务的准确性。
Oct, 2015
该研究探讨了在网络数据采集基础上,采用机器学习和深度学习方法,结合三种特征选择技术去构建出更快,更易解释,更准确的入侵检测系统,结果显示 Bat 算法得到了最高效的结果。
Mar, 2023
提出了一种新方法,该方法根据内在维度的计算,选择可区分数据子集的特征,有助于降低高维度和特征选择的困扰。实验证明该方法优于传统方法,并可在含数百万个数据点的数据集上应用。
Apr, 2023