PMLBmini：用于数据稀缺应用的表格分类基准套件

Sep, 2024

PMLBmini：用于数据稀缺应用的表格分类基准套件

PMLBmini: A Tabular Classification Benchmark Suite for Data-Scarce Applications

Ricardo Knauer, Marvin Grimm, Erik Rodner

TL;DR本研究针对当前表格基准测试未考虑数据稀缺应用的问题，提出了PMLBmini，一个包含44个样本量≤500的二分类数据集的表格基准套件。研究分析显示，现有的自动化机器学习和深度学习方法在低数据环境中往往难以超越简单的逻辑回归基线，但也识别了在特定场景中合理应用这些方法的可能性。

Abstract

In practice, we are often faced with small-sized Tabular Data. However, current tabular benchmarks are not geared towards data-scarce applications, making it very difficult to derive meaningful conclusions from empirical comparisons. We introduce PMLBmini, a tabular benchmark suite of

发现论文，激发创造

PMLB: 机器学习评估和比较的大型基准测试套件

本文介绍了一个可访问、策划和开发的公共基准资源，用于促进不同机器学习方法的优缺点的识别。我们比较了这一资源中当前一组基准数据集的元特征，以表征可用数据的多样性。最后，我们应用了一些已经建立的机器学习方法到整个基准套件，并分析数据集和算法在性能方面是如何聚类的。该工作是了解流行基准套件的限制并开发将现有的基准标准与未来更多样化和有效标准相连接的资源的重要第一步。

Mar, 2017

自动机器学习框架的基准测试

本研究比较了多种 AutoML 工具在开源数据集上的表现，发现 auto-sklearn 在分类数据集上表现最佳，而 TPOT 在回归数据集上表现最佳。

Aug, 2018

AutoGluon-Tabular: 结构化数据稳健准确的自动机器学习

AutoGluon-Tabular是一个开源的AutoML框架，仅需一行Python代码即可训练基于未经处理的表格数据集（如CSV文件）的高精度机器学习模型。与现有的AutoML框架主要侧重于模型/超参数选择不同，AutoGluon-Tabular通过组合多个模型并堆叠它们来成功地实现了目标。多层组合多模型的实验证明，它比寻找最佳模型更能更好地利用分配的训练时间。我们还对公共和商业AutoML平台进行了广泛的评估，包括TPOT，H2O，AutoWEKA，auto-sklearn，AutoGluon和Google AutoML Tables。在Kaggle和OpenML AutoML Benchmark的50个分类和回归任务套件上进行的测试表明，AutoGluon更快、更稳定，更准确。我们发现AutoGluon甚至经常超过所有竞争对手的最佳组合。在两个热门的Kaggle比赛中，AutoGluon仅在原始数据上进行了4小时的训练，就胜过了99%的参赛数据科学家。

Mar, 2020

增强蒸馏技术的表格数据快速准确简单模型

FAST-DAD是一种能够将复杂的模型集合精简为促进部署的个体模型的方法，它基于数据增强策略，并使用基于自注意力的伪似然估计器的吉布斯采样。在30个跨越回归和二元/多类分类任务的数据集上，FAST-DAD精炼方法得到的个体模型比在原始数据上进行标准培训获得的模型更快而且更准确，可以超过AutoML工具如H2O / AutoSklearn生成的集成预测器10倍以上。

Jun, 2020

TabRepo: 一个大规模的表格模型评估存储库及其AutoML应用

介绍了TabRepo数据集，包含了1206个模型在200个回归和分类数据集上的预测和评估指标。通过使用预计算的模型预测，可以在无需代价的情况下对超参数优化与当前AutoML系统的比较以及集成的效果进行分析。同时，展示了该数据集可以用于进行迁移学习，在准确性、运行时间和延迟等方面超过当前最先进的表格系统。

Nov, 2023

制表深度学习特征选择性能驱动基准

通过使用真实数据集和多种生成多余特征的方法，我们构建了一个具有挑战性的特征选择基准，对包括Transformer在内的下游神经网络进行评估，同时提出了一种基于输入梯度的神经网络Lasso变体，相较于经典的特征选择方法在选择受损或二阶特征的挑战性问题上表现出更好的性能。

Nov, 2023

自动机器学习和表格深度学习在数据稀缺分类任务中的评价

在小规模表格数据的低数据情况下，通过在44个表格分类数据集上的实验证明，L2正则化的逻辑回归在大多数基准数据集上表现类似于最先进的自动机器学习框架（AutoPrognosis、AutoGluon）和现成的深度神经网络（TabPFN、HyperFast），因此我们推荐在表格数据的数据匮乏应用中优先选择逻辑回归，并为从方法选择提供实践指南。

May, 2024

TabReD：一个野外表格机器学习基准

本文研究了标准机器学习中现成的表格式基准数据集存在的问题，并引入了TabReD数据集以填补学术基准数据集的不足之处，以此评估不同ML模型在时间演化的数据环境中的表现。结果表明，基于时间的数据划分与学术基准数据集中的随机划分会导致不同的方法排名，MLP类的架构和GBDT模型在TabReD数据集上展现出最佳结果，而更复杂的深度学习模型还需进一步证明其有效性。

Jun, 2024

深度学习在表格数据上的研究

通过一个全面的基准测试，本文研究了深度表格方法和基于树的方法在各种任务类型、大小分布和领域中的性能排名以及影响深度表格方法成功的关键因素，并提取了对预测准确性起决定性作用的元特征。这些研究将进一步促进表格数据的研究。

Jul, 2024

针对多样化表格数据集的机器学习和深度学习综合基准

本研究针对深度学习在表格数据集上的表现不足这一问题进行了深入分析，提出了一套全面的基准，评估了111个数据集与20种不同模型的性能。研究发现，通过对深度学习模型表现优越的数据集进行充分分析，可以有效预测这些模型在特定情况下的表现，最终实现了86.1%的准确率。

Aug, 2024