基于交互信息的自动特征工程
本文介绍了一种名为One Button Machine (OneBM)的系统,该系统可以自动从关系数据库中发现有用的特征,通过在三个 Kaggle 比赛中的表现表明其在预测准确性和排名方面优于现有最先进的系统。这个系统可以帮助数据科学家减少数据探索时间,并使非专家快速提取数据的价值。
Jun, 2017
本文介绍了 Autofeat Python 库,该库能为Scikit-Learn风格的线性回归和分类模型提供自动特征工程和选择功能。通过多阶段的特征工程和选择过程,它可以生成一个非线性特征池,从中选择出一组有意义的特征来提高线性模型的预测准确率,同时保持其可解释性。
Jan, 2019
本文提出了一个自动特征交互选择的两阶段算法(AutoFIS)来改进推荐系统中的CTR预测。该算法可以基于因子分解模型自动识别重要的特征交互,从而显著提高了各种基于FM的模型的性能。
Mar, 2020
研究如何在自动化特征选择中平衡有效性和效率。通过提出一个新的交互式增强特征选择框架,将特征选择问题形式化为交互式强化学习框架,该框架通过自我探索经验及多元化外部技术指导训练器,从而加速学习。此外,该研究利用多种不同搜索策略进行训练,并提出了一种混合教学策略来帮助智能体学习更广泛的知识。最后,对真实世界数据集进行广泛实验以展示该方法的性能改进。
Aug, 2020
这篇综述旨在推广对自动化/自主机器学习系统的更广阔视角,并探讨整合各种机制和理论框架的最佳方式。主要介绍超参数优化、多组件模型、神经架构搜索、自动特征工程、元学习、多层集成、动态自适应、多目标评估、资源限制、灵活的用户参与和泛化原则的发展。最终得出结论,建立自动化机器学习系统的架构整合是一个值得更深入探讨的重要问题。
Dec, 2020
提出了一种AutoML系统,其构建了可解释的加法模型,使用高度可扩展的分量提升算法进行拟合,提供了易于模型解释的工具,并且在预测性能上与其他基于AutoML比较系统相媲美,更易于使用和透明。
Sep, 2021
该论文提出了一种基于元学习和因果特征选择的特征工程方法,名为MACFE,通过预选择具有因果关系的原始特征来加速搜索,并在多个分类数据集上实验证明其可以显著提高预测性能。
Jul, 2022
通过利用大型语言模型,提出了Context-Aware Automated Feature Engineering(CAAFE)方法,该方法可以在表格数据集中生成语义相关的功能。通过将此方法应用于14个数据集,可以提高11个数据集的性能并提供有价值的见解。
May, 2023
通过引入一种交互感知的增强生成视角,我们重新定义特征空间重建为通过选择创建有意义的特征和控制特征集大小的嵌套过程,从而自动化特征和操作的选择以及特征交叉。通过结合统计度量,我们基于所选特征之间的相互作用强度奖励智能体,实现了对特征空间的智能和高效的探索,从而模拟人体决策过程。通过进行大量实验证实了我们提出的方法。
Sep, 2023
自动化的特征工程框架AutoMAN通过有效地探索候选转换空间并学习特征重要性掩码,将数据集的任务目标直接整合进特征工程,从而实现了与替代方法相比具有更高的准确性和更低的延迟。
Jun, 2024