PMLBmini:用于数据稀缺应用的表格分类基准套件
本文介绍了一个可访问、策划和开发的公共基准资源,用于促进不同机器学习方法的优缺点的识别。我们比较了这一资源中当前一组基准数据集的元特征,以表征可用数据的多样性。最后,我们应用了一些已经建立的机器学习方法到整个基准套件,并分析数据集和算法在性能方面是如何聚类的。该工作是了解流行基准套件的限制并开发将现有的基准标准与未来更多样化和有效标准相连接的资源的重要第一步。
Mar, 2017
AutoGluon-Tabular是一个开源的AutoML框架,仅需一行Python代码即可训练基于未经处理的表格数据集(如CSV文件)的高精度机器学习模型。与现有的AutoML框架主要侧重于模型/超参数选择不同,AutoGluon-Tabular通过组合多个模型并堆叠它们来成功地实现了目标。多层组合多模型的实验证明,它比寻找最佳模型更能更好地利用分配的训练时间。我们还对公共和商业AutoML平台进行了广泛的评估,包括TPOT,H2O,AutoWEKA,auto-sklearn,AutoGluon和Google AutoML Tables。在Kaggle和OpenML AutoML Benchmark的50个分类和回归任务套件上进行的测试表明,AutoGluon更快、更稳定,更准确。我们发现AutoGluon甚至经常超过所有竞争对手的最佳组合。在两个热门的Kaggle比赛中,AutoGluon仅在原始数据上进行了4小时的训练,就胜过了99%的参赛数据科学家。
Mar, 2020
FAST-DAD是一种能够将复杂的模型集合精简为促进部署的个体模型的方法,它基于数据增强策略,并使用基于自注意力的伪似然估计器的吉布斯采样。在30个跨越回归和二元/多类分类任务的数据集上,FAST-DAD精炼方法得到的个体模型比在原始数据上进行标准培训获得的模型更快而且更准确,可以超过AutoML工具如H2O / AutoSklearn生成的集成预测器10倍以上。
Jun, 2020
介绍了TabRepo数据集,包含了1206个模型在200个回归和分类数据集上的预测和评估指标。通过使用预计算的模型预测,可以在无需代价的情况下对超参数优化与当前AutoML系统的比较以及集成的效果进行分析。同时,展示了该数据集可以用于进行迁移学习,在准确性、运行时间和延迟等方面超过当前最先进的表格系统。
Nov, 2023
通过使用真实数据集和多种生成多余特征的方法,我们构建了一个具有挑战性的特征选择基准,对包括Transformer在内的下游神经网络进行评估,同时提出了一种基于输入梯度的神经网络Lasso变体,相较于经典的特征选择方法在选择受损或二阶特征的挑战性问题上表现出更好的性能。
Nov, 2023
在小规模表格数据的低数据情况下,通过在44个表格分类数据集上的实验证明,L2正则化的逻辑回归在大多数基准数据集上表现类似于最先进的自动机器学习框架(AutoPrognosis、AutoGluon)和现成的深度神经网络(TabPFN、HyperFast),因此我们推荐在表格数据的数据匮乏应用中优先选择逻辑回归,并为从方法选择提供实践指南。
May, 2024
本文研究了标准机器学习中现成的表格式基准数据集存在的问题,并引入了TabReD数据集以填补学术基准数据集的不足之处,以此评估不同ML模型在时间演化的数据环境中的表现。结果表明,基于时间的数据划分与学术基准数据集中的随机划分会导致不同的方法排名,MLP类的架构和GBDT模型在TabReD数据集上展现出最佳结果,而更复杂的深度学习模型还需进一步证明其有效性。
Jun, 2024
通过一个全面的基准测试,本文研究了深度表格方法和基于树的方法在各种任务类型、大小分布和领域中的性能排名以及影响深度表格方法成功的关键因素,并提取了对预测准确性起决定性作用的元特征。这些研究将进一步促进表格数据的研究。
Jul, 2024
本研究针对深度学习在表格数据集上的表现不足这一问题进行了深入分析,提出了一套全面的基准,评估了111个数据集与20种不同模型的性能。研究发现,通过对深度学习模型表现优越的数据集进行充分分析,可以有效预测这些模型在特定情况下的表现,最终实现了86.1%的准确率。
Aug, 2024