Aug, 2023

DiffPrep: 可微分的表格数据预处理流水线搜索

TL;DR我们提出了一种名为DiffPrep的方法,它可以自动且高效地搜索适用于给定表格数据集和可微分机器学习模型的数据预处理流水线,以使机器学习模型的性能达到最大化。我们将数据预处理流水线搜索问题形式化为一个双层优化问题,并通过将离散、非可微分的搜索空间转化和放松为连续、可微分的空间来高效求解,从而只需训练一次机器学习模型即可进行流水线搜索。实验结果表明DiffPrep在评估的18个真实数据集中有15个取得了最佳的测试准确率,并将模型的测试准确率提高了多达6.6个百分点。