Jul, 2024

评估机器学习模型在表格数据上的数据中心视角

TL;DR通过从 Kaggle 竞赛中选择 10 个相关数据集,实现专家级预处理流程,并进行实验以量化模型选择、超参数优化、特征工程和测试时间适应的影响,我们的主要发现是:1. 数据集特定的特征工程后,模型排名发生了显著变化,性能差异减小,模型选择的重要性降低。2. 最新模型虽然取得了可衡量的进步,但仍然极大受益于手动特征工程,这对基于树的模型和神经网络都适用。3. 虽然通常认为表格数据是静态的,但样本经常随着时间的推移而收集,适应分布的变化即使在所谓的静态数据中也很重要。这些观点表明研究应关注数据为中心的视角,承认表格数据需要特征工程,并且通常具有时间特性。