MLPerf 训练基准测试

Oct, 2019

MLPerf Training Benchmark

Peter Mattson, Christine Cheng, Cody Coleman, Greg Diamos, Paulius Micikevicius...

TL;DRMLPerf 是一个机器学习基准测试，用于量化评估训练性能和可扩展性，解决了优化训练、随机性和系统差异等挑战。

Abstract

machine learning (ML) needs industry-standard performance benchmarks to support design and competitive evaluation of the many emerging software and hardware solutions for ML. But ML training presents three unique

machine learning performance benchmarks mlperf training optimization scalability

发现论文，激发创造

MLPerf 推理基准测试

这篇文章介绍了通过制定一套标准的机器学习基准测试和评估准则来评估以不同结构构建的机器学习硬件和软件系统的性能，以解决各种机器学习结构的评估所面临的挑战。

Nov, 2019

DataPerf: 面向数据中心 AI 开发的基准测试

为了解决机器学习中数据集本质重要性被忽视的问题，本研究提出了 DataPerf，一个用于评估机器学习数据集和算法的基准包，旨在加速数据为中心人工智能开发的发展。

Jul, 2022

神经网络训练算法基准测试

本文提出了一个新的竞争性算法基准测试，AlgoPerf：训练算法基准测试，在多个工作负载上运行固定的硬件，解决了评估训练算法改进的三个基本挑战，包括如何确定训练何时结束和精确测量训练时间，如何处理测量对确切工作负载细节的敏感性，以及如何公平比较需要超参数调整的算法。在本基准测试中，评估了基线结果和各种优化器构建的基线提交，最终证明了新基准测试的可行性。

Jun, 2023

PMLB: 机器学习评估和比较的大型基准测试套件

本文介绍了一个可访问、策划和开发的公共基准资源，用于促进不同机器学习方法的优缺点的识别。我们比较了这一资源中当前一组基准数据集的元特征，以表征可用数据的多样性。最后，我们应用了一些已经建立的机器学习方法到整个基准套件，并分析数据集和算法在性能方面是如何聚类的。该工作是了解流行基准套件的限制并开发将现有的基准标准与未来更多样化和有效标准相连接的资源的重要第一步。

Mar, 2017

基准彩票

本文提出了 “基准测试彩票” 的概念，以描述机器学习基准测试过程的整体脆弱性，指出基准测试流程中的许多因素可能导致某种方法被认为优越。同时，本文通过选择不同的基准任务，揭示了算法的相对性能可能会显著改变，强调了当前范式的脆弱性，并提出了缓解这种情况的建议。

Jul, 2021

为 BigBench 中的机器学习工作负载增加功能

在大数据和机器学习、深度学习以及人工智能算法得到越来越多支持的时代，急需标准化的应用基准来对这些新技术进行压力测试和评估。本文在基于标准化的 BigBench (TPCx-BB) 基准的基础上，通过引入三个新的工作负载和扩展机器学习算法的覆盖范围，丰富了改进版的 BigBench V2。我们的工作负载使用多种算法，并对同一算法在多个流行的库中（如 MLlib、SystemML、Scikit-learn 和 Pandas）的不同实现进行比较，展示了我们基准扩展的相关性和可用性。

Jun, 2024

DeepPERF：基于深度学习的软件性能优化方法

本文介绍 DeepPERF，一种基于 transformer 的方法，可用于建议改进 C# 应用程序的性能问题，通过预训练和调优，我们的模型能够在 53% 的情况下生成与开发人员修复相同的性能改进建议，在 50 个开源的 C# 仓库上评估表明我们的模型能够提供有效的性能改进建议。

Jun, 2022

OpenML 基准测试套件

本研究旨在提出可用于机器学习算法基准测试的 OpenML 基准测试集合，以标准化基准测试的设置、执行和报告，并提供一种针对分类任务的基准测试套件：OpenML Curated Classification benchmarking suite 2018。

Aug, 2017

机器学习基准测试中方差的考虑

通过模拟对比机器学习算法的整个基准测试过程，我们发现数据采样、参数初始化和超参数选择对结果的影响显著。进一步分析今天所用的主要比较方法，我们提出一种反直觉的结果，即在不增加计算成本的情况下，将更多的变化源添加到不完美的估计器中可以接近更理想的估计器。通过五个不同的深度学习任务和架构，分析改进检测错误率，提出了性能比较的建议。

Mar, 2021

聪明的基准测试 AI 加速器 —— 以性能代表为基准

通过利用目标硬件架构和初始参数扫描，我们提出了一种新的性能建模方法，显着减少了训练样本的数量，同时保持较高的准确性。我们的方法针对单层估计达到 0.02% 的平均绝对百分比误差（MAPE），针对整个深度神经网络的估计达到 0.68% 的 MAPE，仅需不到 10000 个训练样本，相比于随机抽样的模型，实验结果证明了我们方法在单层估计中的优越性。

Jun, 2024