基于交互信息的自动特征工程

Sep, 2024

IIFE: Interaction Information Based Automated Feature Engineering

Tom Overman, Diego Klabjan, Jean Utke

TL;DR本研究针对传统特征工程中的领域专业知识需求和耗时的迭代测试问题，提出了一种新的自动特征工程算法IIFE。该算法通过信息论视角下的交互信息来确定特征对的协同效果，验证了其优于现有算法的性能。研究还探讨了现有自动特征工程文献中几个关键实验设置问题及其对性能的影响。

Abstract

Automated Feature Engineering (AutoFE) is the process of automatically building and selecting new features that help improve downstream Predictive Performance. While traditional feature engineering requires signi

发现论文，激发创造

基于单按钮技术的关系数据库特征工程自动化机器

本文介绍了一种名为One Button Machine (OneBM)的系统，该系统可以自动从关系数据库中发现有用的特征，通过在三个 Kaggle 比赛中的表现表明其在预测准确性和排名方面优于现有最先进的系统。这个系统可以帮助数据科学家减少数据探索时间，并使非专家快速提取数据的价值。

Jun, 2017

Python自动化特征工程与选择的autofeat库

本文介绍了 Autofeat Python 库，该库能为Scikit-Learn风格的线性回归和分类模型提供自动特征工程和选择功能。通过多阶段的特征工程和选择过程，它可以生成一个非线性特征池，从中选择出一组有意义的特征来提高线性模型的预测准确率，同时保持其可解释性。

Jan, 2019

AutoFIS: 基于分解模型的点击率预测自动特征交互选择

本文提出了一个自动特征交互选择的两阶段算法（AutoFIS）来改进推荐系统中的CTR预测。该算法可以基于因子分解模型自动识别重要的特征交互，从而显著提高了各种基于FM的模型的性能。

Mar, 2020

通过多样性感知交互式强化学习实现的自动特征选择

研究如何在自动化特征选择中平衡有效性和效率。通过提出一个新的交互式增强特征选择框架，将特征选择问题形式化为交互式强化学习框架，该框架通过自我探索经验及多元化外部技术指导训练器，从而加速学习。此外，该研究利用多种不同搜索策略进行训练，并提出了一种混合教学策略来帮助智能体学习更广泛的知识。最后，对真实世界数据集进行广泛实验以展示该方法的性能改进。

Aug, 2020

自动机器学习的综合框架

这篇综述旨在推广对自动化/自主机器学习系统的更广阔视角，并探讨整合各种机制和理论框架的最佳方式。主要介绍超参数优化、多组件模型、神经架构搜索、自动特征工程、元学习、多层集成、动态自适应、多目标评估、资源限制、灵活的用户参与和泛化原则的发展。最终得出结论，建立自动化机器学习系统的架构整合是一个值得更深入探讨的重要问题。

Dec, 2020

自动分量提升：可解释性自动机器学习系统

提出了一种AutoML系统，其构建了可解释的加法模型，使用高度可扩展的分量提升算法进行拟合，提供了易于模型解释的工具，并且在预测性能上与其他基于AutoML比较系统相媲美，更易于使用和透明。

Sep, 2021

MACFE: 基于元学习和因果推断的特征工程框架

该论文提出了一种基于元学习和因果特征选择的特征工程方法，名为MACFE，通过预选择具有因果关系的原始特征来加速搜索，并在多个分类数据集上实验证明其可以显著提高预测性能。

Jul, 2022

GPT用于半自动化数据科学：介绍CAAFE进行上下文感知的自动特征工程

通过利用大型语言模型，提出了Context-Aware Automated Feature Engineering（CAAFE）方法，该方法可以在表格数据集中生成语义相关的功能。通过将此方法应用于14个数据集，可以提高11个数据集的性能并提供有价值的见解。

May, 2023

通过感知交互意识的自动转换提升特征认知能力

通过引入一种交互感知的增强生成视角，我们重新定义特征空间重建为通过选择创建有意义的特征和控制特征集大小的嵌套过程，从而自动化特征和操作的选择以及特征交叉。通过结合统计度量，我们基于所选特征之间的相互作用强度奖励智能体，实现了对特征空间的智能和高效的探索，从而模拟人体决策过程。通过进行大量实验证实了我们提出的方法。

Sep, 2023

自动特征工程的学习特征重要性评分

自动化的特征工程框架AutoMAN通过有效地探索候选转换空间并学习特征重要性掩码，将数据集的任务目标直接整合进特征工程，从而实现了与替代方法相比具有更高的准确性和更低的延迟。

Jun, 2024