该论文提出了一个面向数据的 AI 框架,可以自动选择重要特征,实现自动发现不同的数据子组并提高检测性能。通过在 MIMIC-III 和 Allstate Claims 公开数据集上的验证,该框架比现有的六种特征选择方法减少了 81 倍和 104 倍的特征选择时间,并实现了有竞争力的检测性能。
Mar, 2022
本文采用混合整数圆锥优化方法,结合整体广义线性模型,完全自动化模型选择过程。具体而言,我们直接优化赤池信息准则和贝叶斯信息准则,并在特征选择任务中引入旨在处理多重共线性的约束条件,其中包括一种新的配对相关约束,它结合了符号协调约束和来自经典统计模型(如岭回归模型和 OSCAR 模型)的想法。
Apr, 2024
本文提出了一种自适应选择重要特征字段的 AutoML 框架,该框架设计了一个可微的控制器网络,通过自动调整选择特定特征字段的概率来重新训练深度推荐模型,实验证明了该框架的有效性。
Apr, 2022
本文回顾了如何利用信息标准、收缩方法、Fence 法和贝叶斯技术等四种主要方法,解决选择适当的线性混合效应模型的问题。通过考察一系列文献的方法、性质和相互关系,帮助读者更好地了解可用的方法。
Jun, 2013
通过使用真实数据集和多种生成多余特征的方法,我们构建了一个具有挑战性的特征选择基准,对包括 Transformer 在内的下游神经网络进行评估,同时提出了一种基于输入梯度的神经网络 Lasso 变体,相较于经典的特征选择方法在选择受损或二阶特征的挑战性问题上表现出更好的性能。
Nov, 2023
通过使用特征状态转换图,我们引入了一种新的方法来解决当前自动特征工程框架中存在的限制,并通过全面的实验证明了其在不同场景下具有优越的性能。
Jun, 2024
本研究提出了一种不受模型约束的框架,可以同时优化监督式机器学习模型在表格数据上的预测性能和可解释性,其中可解释性通过特征稀疏性、特征交互稀疏性以及非单调特征效应的稀疏性进行量化。
Jul, 2023
通过从 Kaggle 竞赛中选择 10 个相关数据集,实现专家级预处理流程,并进行实验以量化模型选择、超参数优化、特征工程和测试时间适应的影响,我们的主要发现是:1. 数据集特定的特征工程后,模型排名发生了显著变化,性能差异减小,模型选择的重要性降低。2. 最新模型虽然取得了可衡量的进步,但仍然极大受益于手动特征工程,这对基于树的模型和神经网络都适用。3. 虽然通常认为表格数据是静态的,但样本经常随着时间的推移而收集,适应分布的变化即使在所谓的静态数据中也很重要。这些观点表明研究应关注数据为中心的视角,承认表格数据需要特征工程,并且通常具有时间特性。
Jul, 2024
本研究介绍了一种名为贪婪特征选择的用于分类任务的特征排序新方法,并通过理论和数值测试探究了该方法在模型容量指标以及预测活动太阳的地球有效表现问题上的好处。
Mar, 2024
研究如何在自动化特征选择中平衡有效性和效率。通过提出一个新的交互式增强特征选择框架,将特征选择问题形式化为交互式强化学习框架,该框架通过自我探索经验及多元化外部技术指导训练器,从而加速学习。此外,该研究利用多种不同搜索策略进行训练,并提出了一种混合教学策略来帮助智能体学习更广泛的知识。最后,对真实世界数据集进行广泛实验以展示该方法的性能改进。
Aug, 2020