TabReD：一个野外表格机器学习基准

Jun, 2024

TabReD：一个野外表格机器学习基准

TabReD: A Benchmark of Tabular Machine Learning in-the-Wild

Ivan Rubachev, Nikolay Kartashev, Yury Gorishniy, Artem Babenko

TL;DR本文研究了标准机器学习中现成的表格式基准数据集存在的问题，并引入了 TabReD 数据集以填补学术基准数据集的不足之处，以此评估不同 ML 模型在时间演化的数据环境中的表现。结果表明，基于时间的数据划分与学术基准数据集中的随机划分会导致不同的方法排名，MLP 类的架构和 GBDT 模型在 TabReD 数据集上展现出最佳结果，而更复杂的深度学习模型还需进一步证明其有效性。

Abstract

benchmarks that closely reflect downstream application scenarios are essential for the streamlined adoption of new research in tabular machine learning (ML). In this work, we examine existing tabular benchmarks a

tabular machine learning benchmarks time-based train and test splits industry-grade tabular datasets ml models

发现论文，激发创造

深度学习在表格数据上的研究

通过一个全面的基准测试，本文研究了深度表格方法和基于树的方法在各种任务类型、大小分布和领域中的性能排名以及影响深度表格方法成功的关键因素，并提取了对预测准确性起决定性作用的元特征。这些研究将进一步促进表格数据的研究。

Jul, 2024

TabRepo: 一个大规模的表格模型评估存储库及其 AutoML 应用

介绍了 TabRepo 数据集，包含了 1206 个模型在 200 个回归和分类数据集上的预测和评估指标。通过使用预计算的模型预测，可以在无需代价的情况下对超参数优化与当前 AutoML 系统的比较以及集成的效果进行分析。同时，展示了该数据集可以用于进行迁移学习，在准确性、运行时间和延迟等方面超过当前最先进的表格系统。

Nov, 2023

评估机器学习模型在表格数据上的数据中心视角

通过从 Kaggle 竞赛中选择 10 个相关数据集，实现专家级预处理流程，并进行实验以量化模型选择、超参数优化、特征工程和测试时间适应的影响，我们的主要发现是：1. 数据集特定的特征工程后，模型排名发生了显著变化，性能差异减小，模型选择的重要性降低。2. 最新模型虽然取得了可衡量的进步，但仍然极大受益于手动特征工程，这对基于树的模型和神经网络都适用。3. 虽然通常认为表格数据是静态的，但样本经常随着时间的推移而收集，适应分布的变化即使在所谓的静态数据中也很重要。这些观点表明研究应关注数据为中心的视角，承认表格数据需要特征工程，并且通常具有时间特性。

Jul, 2024

制表深度学习特征选择性能驱动基准

通过使用真实数据集和多种生成多余特征的方法，我们构建了一个具有挑战性的特征选择基准，对包括 Transformer 在内的下游神经网络进行评估，同时提出了一种基于输入梯度的神经网络 Lasso 变体，相较于经典的特征选择方法在选择受损或二阶特征的挑战性问题上表现出更好的性能。

Nov, 2023

机器学习研究中数据集的生命周期：减少、重复利用和循环利用

本文研究各机器学习子社区在 2015-2020 年期间数据集使用模式的差异，并发现技术社区对越来越少的数据集集中使用，大量采用来自其他任务的数据集，并集中于由少数精英机构研究者推出的数据集，从而对科学评估、人工智能伦理和公平性、以及领域内的平等 / 可接近性产生影响。

Dec, 2021

Wild-Tab：表格回归的超出分布泛化性能基准

通过 Wild-Tab，一个面向表格回归任务的大规模基准测试集，我们在实际环境中评估了 10 种不同的 out-of-distribution generalization 方法，发现 Empirical Risk Minimization 在所有评估中都表现出强大的鲁棒性，与最先进的方法不相上下，这有望促进对 out-of-distribution generalization 的更多研究并有助于在各种实际场景中部署机器学习模型。

Dec, 2023

树状模型在表格数据上为何仍然优于深度学习？

通过与传统树模型如 XGBoost 和随机森林的对比，研究发现，对于中等大小数据集（约 10K 个样本），树模型仍然是当前在表格数据上的最佳选择；研究还提出了神经网络在表格数据上建模的若干挑战，并为后续研究提供基准测试数据和计算资源。

Jul, 2022

TransTab: 在表格间学习可迁移的表格变换器

该研究论文提出了一种名为转移性表格变压器（TransTab）的新方法，该方法通过将表格中的每个样本（即行）转换为可推广的嵌入向量，然后应用堆叠的变压器进行特征编码，来学习来自多个表格的机器学习模型。该方法探讨了如何在训练和测试期间使用多个具有部分重叠列的表格进行机器学习模型的预测，并对预训练模型的性能进行了分析和比较。

May, 2022

深度神经网络与表格数据：一份调查报告

本文为研究人员和从业人员提供了深度学习方法在表格数据上的最新进展和应用，主要从数据变换、特殊网络架构、正则化模型和数据生成四个方面进行了探讨，并且在 5 个不同的实际数据集上，将传统机器学习方法与 11 种深度学习方法进行了实证比较，结果表明传统机器学习方法在有监督学习任务上仍优于基于深度学习的算法，提示相关研究有点停滞不前。

Oct, 2021

重访针对表格数据的深度学习模型

本研究对表格数据的深度学习架构进行概述，提出了两种简单而强大的基准深度架构，并发现 Transformer 架构对于表格数据的性能最优。

Jun, 2021