自回归 Transformer API 推理效率度量的廉价评估

May, 2023

自回归 Transformer API 推理效率度量的廉价评估

Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs

Deepak Narayanan, Keshav Santhanam, Peter Henderson, Rishi Bommasani, Tony Lee...

TL;DR介绍了一种新的度量模型推理效率的 metric 理想运行时间（idealized runtime），对自回归 Transformer 模型进行了高效的估计。使用这些方法，作者对十种最先进的 LLM 进行了比较，并提出了多项结论，包括一些 API 的推理效率超过其他模型的原因是由于 API 中的优化措施而不是所使用的模型本身。

Abstract

large language models (LLMs) power many state-of-the-art systems in natural language processing. However, these models are extremely computationally expensive, even at inference time, raising the natural question: when is the extra cost of deploying a larger model worth the anticipated

large language models inference efficiency transformer models accelerators performance contention

发现论文，激发创造

大型语言模型的推理效率从粗粒度到细粒度评估

通过对各种代码库的推理性能进行粗细的分析，本研究提供了研究人员评估代码库和改进推理策略的宝贵综合结果。

Apr, 2024

从文字到瓦特：大型语言模型推理的能源成本基准测试

大型语言模型（LLMs）的计算和能源资源利用的推理性能进行了基准测试和初步分析，分析了不同规模的 LLMa 在两代热门 GPU（NVIDIA V100 和 A100）以及两个数据集（Alpaca 和 GSM8K）上的推理性能与推理能源成本。

Oct, 2023

大语言模型的高效推论综述

大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题，本文对提高大规模语言模型推理效率的现有技术文献进行了综述，介绍了数据层、模型层和系统层优化的方法，并通过实验进行了定量分析，最后总结了相关知识，并探讨了未来研究方向。

Apr, 2024

度量感知的 LLM 推理

大语言模型 (LLMs) 在一系列自然语言处理任务上取得了出色的结果，但当前的推理策略对于许多任务和评估指标来说并不是最优的。为此，本研究提出了基于度量感知的 LLM 推理方法，通过决策理论在推理过程中针对特定指标进行优化，我们在学术基准和公开模型上取得了改进。

Mar, 2024

大型语言模型的训练、微调和推理的运行时性能剖析

通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试，本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。

Nov, 2023

高效扩展 Transformer 推理

该研究旨在提高 Transformers 模型的生成推理效率，并通过多维分区技术、低级优化等策略获得较佳的推理效率和 FLOPS 利用率权衡，从而支持 Token 的大批量处理和长文本生成。

Nov, 2022

基于英特尔 GPU 的高效 LLM 推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量，在 Intel GPU 上相对于标准 HuggingFace 实现，能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。

Dec, 2023

高效译码的投机流水线执行

通过使用预测值，基于 Transformer 架构的生成式大型语言模型 (SPEED) 能够并行地执行当前令牌以及多个未来令牌，从而提高推理效率，减少延迟，并在保持模型准确性的同时实现支持参数共享的更深层次解码器的训练。

Oct, 2023

效率误解

本文细致探讨了关于模型效率的成本指标，它们的优点和缺点，以及它们如何相互矛盾和导致了不完整的结论、不清晰或不完整的不同模型的实际考虑，进一步提出了改进效率指标报告的建议。

Oct, 2021

预训练语言模型压缩和加速综述

该文章调查了预训练语言模型的压缩和加速方法，重点关注了模型在 NLP 领域推理阶段的表现，并提出为 NLP 的整个生命周期（包括数据准备、模型训练和推理）综合考虑计算、时间和碳排放的高效 NLP 研究。

Feb, 2022