Jun, 2024

TabReD:一个野外表格机器学习基准

TL;DR本文研究了标准机器学习中现成的表格式基准数据集存在的问题,并引入了 TabReD 数据集以填补学术基准数据集的不足之处,以此评估不同 ML 模型在时间演化的数据环境中的表现。结果表明,基于时间的数据划分与学术基准数据集中的随机划分会导致不同的方法排名,MLP 类的架构和 GBDT 模型在 TabReD 数据集上展现出最佳结果,而更复杂的深度学习模型还需进一步证明其有效性。