MLPerf 推理基准测试

Nov, 2019

MLPerf Inference Benchmark

Vijay Janapa Reddi, Christine Cheng, David Kanter, Peter Mattson, Guenther Schmuelling...

TL;DR这篇文章介绍了通过制定一套标准的机器学习基准测试和评估准则来评估以不同结构构建的机器学习硬件和软件系统的性能，以解决各种机器学习结构的评估所面临的挑战。

Abstract

machine-learning (ML) hardware and software system demand is burgeoning. Driven by ML applications, the number of different ML inference s

发现论文，激发创造

MLPerf 是一个机器学习基准测试，用于量化评估训练性能和可扩展性，解决了优化训练、随机性和系统差异等挑战。

Oct, 2019

为了解决机器学习中数据集本质重要性被忽视的问题，本研究提出了 DataPerf，一个用于评估机器学习数据集和算法的基准包，旨在加速数据为中心人工智能开发的发展。

Jul, 2022

本文提供了一个名为 MIGPerf 的开源工具，对多实例 GPU 技术进行了综合和实际的基准研究，并从多方面对 MIG 进行了实验研究，为用户有效使用 MIG 提供新的见解和指导，并为在 MIG 上协调混合训练和推理负载的研究奠定了基础。

Jan, 2023

通过建立合适的性能度量标准的基准，我们评估了一些最新的利用神经网络和经典近似贝叶斯计算方法的方法，发现性能度量的选择关键，即使是最先进的算法也有很大的改进空间，顺序估计提高了样本效率，神经网络方法通常表现更好，但没有均匀的最佳算法。

Jan, 2021

本文研究了公开宣布具有性能和功耗数字的多核处理器和加速器的现状，发现其中一些趋势，包括功耗、数字精度以及推理与训练等方面的趋势，并选择并测试了两个低尺寸、重量和功率的商用加速器的实际表现，将其与报道的性能和功耗数值进行比较，并将其与嵌入式应用程序中使用的 Intel CPU 进行评估。

Aug, 2019

通过 LLMCompass 硬件评估框架，本研究提出了性能优化和成本效益的硬件设计选择，以实现大规模语言模型的民主化。

Dec, 2023

研究探讨了基于内存为中心的计算系统中处理器内存访问瓶颈和大量能量消耗的解决方案，考察 PIM 架构对机器学习算法训练的潜力，通过评估经典算法在 PIM 和传统 CPU、GPU 上的性能、准确度和扩展性对比，表现出更高效的处理机制和更好的加速效果。

Jul, 2022

大型语言模型（LLMs）的计算和能源资源利用的推理性能进行了基准测试和初步分析，分析了不同规模的 LLMa 在两代热门 GPU（NVIDIA V100 和 A100）以及两个数据集（Alpaca 和 GSM8K）上的推理性能与推理能源成本。

Oct, 2023

通过使用基于多级中间表示（MLIR）的开源编译工具链，该研究在 gem5 这个开源架构模拟器上评估了 RISC-V 架构上各种机器学习工作负载的性能，并揭示了 gem5 在模拟 RISC-V 架构时的当前限制，为未来的开发和改进提供了见解。

May, 2024

主流机器学习软件框架的可移植性研究表明，在不同硬件类型间转移框架会导致超过 40% 关键功能丧失且性能严重下降，这揭示了硬件专业化对机器学习研究创新的阻碍。

Sep, 2023