PMLB: 机器学习评估和比较的大型基准测试套件

Mar, 2017

PMLB: 机器学习评估和比较的大型基准测试套件

PMLB: A Large Benchmark Suite for Machine Learning Evaluation and Comparison

Randal S. Olson, William La Cava, Patryk Orzechowski, Ryan J. Urbanowicz, Jason H. Moore

TL;DR本文介绍了一个可访问、策划和开发的公共基准资源，用于促进不同机器学习方法的优缺点的识别。我们比较了这一资源中当前一组基准数据集的元特征，以表征可用数据的多样性。最后，我们应用了一些已经建立的机器学习方法到整个基准套件，并分析数据集和算法在性能方面是如何聚类的。该工作是了解流行基准套件的限制并开发将现有的基准标准与未来更多样化和有效标准相连接的资源的重要第一步。

Abstract

The selection, development, or comparison of machine learning methods in data mining can be a difficult task based on the target problem and goals of a particular study. Numerous publicly available real-world and

发现论文，激发创造

MLPerf 训练基准测试

MLPerf是一个机器学习基准测试，用于量化评估训练性能和可扩展性，解决了优化训练、随机性和系统差异等挑战。

Oct, 2019

基准彩票

本文提出了“基准测试彩票”的概念，以描述机器学习基准测试过程的整体脆弱性，指出基准测试流程中的许多因素可能导致某种方法被认为优越。同时，本文通过选择不同的基准任务，揭示了算法的相对性能可能会显著改变，强调了当前范式的脆弱性，并提出了缓解这种情况的建议。

Jul, 2021

Benchopt: 可重现、高效和协作的优化基准

提出了Benchopt，这是一个协作框架，旨在自动化、再现和发布跨编程语言和硬件架构的机器学习优化基准测试，为社区提供了一个现成的工具，以简化基准测试，并展示了三个标准学习任务的基准测试结果，重点关注实际评估中的细节问题，以此促进社区协作工作，改善研究结果的可再生性。

Jun, 2022

DC-BENCH：数据集压缩基准测试

本研究提供了首个大规模的Dataset Condensation标准化基准，通过其生成的数据集全面反映了浓缩方法的通用性和有效性，并报告了许多有见地的发现，为未来的发展开辟了新的可能性。

Jul, 2022

投票与排序：基于社会选择理论的基准评估修订

该论文提出了Vote'n'Rank框架用于在多任务基准测试中排名系统，并通过该方法在不同领域中比较多个系统的表现，从而得出结论和新的insights。

Oct, 2022

对比集合操纵稳定的多重比较基准评估方法

本文章介绍了一个新的基于配对比较的方法来呈现基准测试的结果，并排除了现有方法中对实验结果进行意外或有意动态的可能性。

May, 2023

RDBench: 关系数据库的机器学习基准测试

通过引入ML Benchmark For Relational Databases (RDBench)标准化基准测试，旨在促进多表关系数据库上可复现的机器学习研究，RDBench为不同的机器学习领域提供多样的关系数据库数据集，使得从XGBoost到图神经网络等不同领域的ML方法可以进行有意义的比较和评估。

Oct, 2023

评估LLP方法：挑战与方法

学习标签比例（LLP）是一个机器学习问题，有许多现实应用。本文提出了解决LLP中的若干问题的方法，包括生成各种依赖结构和包特征的特定变体数据集，模型选择和评估步骤的准则，以及对一组知名LLP算法的广泛基准测试结果。

Oct, 2023

针对多样化表格数据集的机器学习和深度学习综合基准

本研究针对深度学习在表格数据集上的表现不足这一问题进行了深入分析，提出了一套全面的基准，评估了111个数据集与20种不同模型的性能。研究发现，通过对深度学习模型表现优越的数据集进行充分分析，可以有效预测这些模型在特定情况下的表现，最终实现了86.1%的准确率。

Aug, 2024

PMLBmini：用于数据稀缺应用的表格分类基准套件

本研究针对当前表格基准测试未考虑数据稀缺应用的问题，提出了PMLBmini，一个包含44个样本量≤500的二分类数据集的表格基准套件。研究分析显示，现有的自动化机器学习和深度学习方法在低数据环境中往往难以超越简单的逻辑回归基线，但也识别了在特定场景中合理应用这些方法的可能性。

Sep, 2024