带测试成本约束的特征选择
特征选择是一种流行的方法,可以获得小型、可解释且高度准确的预测模型。本文介绍了一种名为 “替代特征选择” 的方法,并将其形式化为一个优化问题。我们定义了替代特征集合的约束条件,并允许用户控制替代特征的数量和差异性。进一步分析了该优化问题的复杂性并证明了其 NP-hardness。最后,我们使用 30 个分类数据集评估了替代特征选择的效果,并观察到替代特征集合可能具有较高的预测质量,并分析了影响这一结果的几个因素。
Jul, 2023
本文提出了一种启发式方法,通过临时舍弃条件独立于特征集所选择的变量,在保持预测准确性的同时显著提高了前向 - 后向选择算法的运行效率,并在能够被贝叶斯网络或最大祖先图恰当表示的分布中,能够正确识别马尔科夫毯子。
May, 2017
通过选择最具信息量的特征并消除无关的特征,我们提出了一种新的基于差异性特征的滤波特征选择方法 ContrastFS,该方法能够在大型数据集上有效地降低计算成本,而且性能优于其他最先进的特征选择方法。
Jan, 2024
本文综述了不同的特征选择方法及其与机器学习算法之间的关系,阐述了特征选择在数据挖掘过程中的重要性,特别是在处理数量过多的特征时,可以降低计算负担和提高机器学习任务的准确性。
Oct, 2015
提出了从混合整数锥优化的角度,具有证明最优的特征选择程序的机器学习方法,可以考虑辅助成本以获取特征,同时创建了用于临床预后模型研究的合成数据生成器,以系统评估不同的启发式和最优基数约束特征选择程序。
Oct, 2023
本文介绍了如何利用关系数据库系统支持的合取查询方法,解决约束满足问题和特征模型配置任务,从而将数据库技术应用于解决配置任务,并在识别和解决不一致性方面提供了新的算法方法。
Apr, 2023
研究缺失数据的测试成本敏感方法,用于识别具有未知特征值的新点从大型数据集中找到附近点的问题。提出了两个模型:一种基于树,另一种基于深度强化学习,模拟表明这些模型在五个真实数据集上比随机代理效果好。
Oct, 2020
特征选择是机器学习和数据挖掘中的一项复杂任务,其目标是去除无关和多余的特征,以提高分类准确性和减少内存需求。我们提出了一种多目标二进制优化算法 Compact NSGA-II,通过紧凑表示将种群视为概率分布,从而减少适应度评估次数,有效地探索搜索空间并在有限预算内表现出更高的效率。该算法是首个用于特征选择的紧凑多目标算法,并在五个数据集上的昂贵优化案例中取得了比 NSGA-II 更好的性能表现。
Feb, 2024