效率十项全能：效率评估的标准竞技场

Jul, 2023

效率十项全能：效率评估的标准竞技场

Efficiency Pentathlon: A Standardized Arena for Efficiency Evaluation

Hao Peng, Qingqing Cao, Jesse Dodge, Matthew E. Peters, Jared Fernandez...

TL;DR现代自然语言处理（NLP）系统的计算需求增加了最前沿研究的门槛，同时引发了严重的环境问题。然而，在模型效率方面取得进展却受到了模型评估和比较中的实际挑战的阻碍。为了应对这一问题，本文介绍了 Pentathlon，一个用于模型效率全面和现实评估的基准测试。Pentathlon 主要关注推理，并提供一个严格控制的硬件平台，旨在模拟真实的应用场景。它结合了一套针对效率不同方面的度量标准，包括延迟、吞吐量、内存开销和能源消耗。Pentathlon 还提供一个软件库，可以无缝集成到任何代码库中，用于评估。作为一个标准化和集中化的评估平台，Pentathlon 可以大大减轻工作量，实现公平且可重现的效率比较。尽管最初专注于自然语言处理（NLP）模型，Pentathlon 的设计允许灵活扩展到其他领域。我们预计 Pentathlon 将促进建立高效模型的算法创新，并增加对未来 NLP 模型发展中的社会和环境影响的关注。

Abstract

Rising computational demands of modern natural language processing (NLP) systems have increased the barrier to entry for cutting-edge research while posing serious environmental concerns. Yet, progress on model efficien

computational demands model efficiency benchmark inference efficiency metrics

发现论文，激发创造

高效基准测试（语言模型）

使用 LM 评估的计算成本的智能减少，提高效率，保证可靠性，从而显著降低计算量并保持基准可靠性，通常减少计算量 100 倍或更多。

Aug, 2023

MLPerf 推理基准测试

这篇文章介绍了通过制定一套标准的机器学习基准测试和评估准则来评估以不同结构构建的机器学习硬件和软件系统的性能，以解决各种机器学习结构的评估所面临的挑战。

Nov, 2019

MLPerf 训练基准测试

MLPerf 是一个机器学习基准测试，用于量化评估训练性能和可扩展性，解决了优化训练、随机性和系统差异等挑战。

Oct, 2019

大型语言模型推理的硬件评估框架

通过 LLMCompass 硬件评估框架，本研究提出了性能优化和成本效益的硬件设计选择，以实现大规模语言模型的民主化。

Dec, 2023

面向高效的自然语言处理：标准评估和强基线模型

该研究提出了一种标准评估和公开排行榜 ELUE（Efficient Language Understanding Evaluation）用于评估各种自然语言处理模型的效率，包括了统计语言模型 BERT 的一个新版本 ElasticBERT，并用该模型在不同任务上完成了 Pareto 前沿。

Oct, 2021

GraphArena：基于图计算问题的大型语言模型评测

GraphArena 是一个基准测试工具，用于在以百万规模的真实世界图形为基础的各种场景中，通过图计算问题评估大型语言模型（LLMs）。该工具提供了 10 个计算任务，包括 4 个多项式时间问题和 6 个 NP 完全问题。评估结果显示，即使是表现最好的模型也无法很好地处理更大、更复杂的图形问题，并且存在幻觉问题。

Jun, 2024

奥林匹克竞技场：对超智能人工智能的多学科认知推理进行基准测试

人工智能的进化已经显著加速，主要得益于大型语言模型和大型多模态模型的进展，在问题解决和科学发现方面逐渐展现出与人类智力相当的潜在认知推理能力（即 AI4Science）。为了全面评估当前模型在认知推理能力方面的表现，我们引入了奥林匹克竞技场（OlympicArena），其中包含了 11,163 个双语问题，涵盖了文本和图像两种模态。这些挑战囊括了七个领域和 62 个国际奥林匹克竞赛的各种学科，经过严谨的数据泄露检测。我们认为，奥林匹克竞赛问题中的挑战非常适合评估 AI 的认知推理能力，因为这些问题具有复杂性和跨学科性质，对于解决复杂科学难题和促进发现非常重要。通过答案评估各学科中的表现之外，我们从多个角度进行了详细的实验和分析，深入探讨了模型的认知推理能力，它们在不同模态下的表现以及在解决长篇解答复杂推理任务中的结果。我们广泛的评估显示，即使是像 GPT-4o 这样的先进模型也只能达到 39.97% 的整体准确率，这说明当前人工智能在复杂推理和多模态整合方面存在局限性。通过奥林匹克竞技场，我们旨在推进人工智能走向超级智能，使其能够应对更复杂的科学和其他挑战。我们还提供了一套全面的资源来支持人工智能研究，包括基准数据集、开源注释平台、详细评估工具和带有自动提交功能的排行榜。

Jun, 2024

FinBen: 大型语言模型的全面金融基准

通过引入 FinBen 综合开放式评估基准，本文对 15 个具有代表性的 LLMs 进行评估，揭示了它们在金融领域的优势和局限性，找出了需要有针对性增强的方面。

Feb, 2024

语言模型整体评估

我们提出了综合评估语言模型 (HELM) 来提高人们对这一基础技术的透明度，采用多指标方法测量 16 个核心场景的 7 个指标，此外还进行了 7 个有针对性的评估，总结了 25 个高层次结论，并公开了所有模型和完成的原始数据。

Nov, 2022

SPLADE 模型效率研究

本文主要聚焦于基于预训练语言模型的信息检索系统，提出了一系列技术包括 L1 正则化、分离文档 / 查询编码器、使用更快速的查询编码器等方法，以提高 SPLADE 模型的效率并在领域内数据上提高性能指标。在相同计算限制下，我们提出的神经模型实现了与传统 BM25 相似的延迟和与最先进的单阶段神经排序器相似的性能指标。

Jul, 2022