大型语言模型的推理效率从粗粒度到细粒度评估

Apr, 2024

大型语言模型的推理效率从粗粒度到细粒度评估

Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models

Yushuo Chen, Tianyi Tang, Erge Xiang, Linjiang Li, Wayne Xin Zhao...

TL;DR通过对各种代码库的推理性能进行粗细的分析，本研究提供了研究人员评估代码库和改进推理策略的宝贵综合结果。

Abstract

In real world, large language models (LLMs) can serve as the assistant to help users accomplish their jobs, and also support the development of advanced applications. For the wide application of LLMs, the inference effi

large language models inference efficiency optimization algorithms code libraries transformer architecture

发现论文，激发创造

大语言模型的高效推论综述

大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题，本文对提高大规模语言模型推理效率的现有技术文献进行了综述，介绍了数据层、模型层和系统层优化的方法，并通过实验进行了定量分析，最后总结了相关知识，并探讨了未来研究方向。

Apr, 2024

自回归 Transformer API 推理效率度量的廉价评估

介绍了一种新的度量模型推理效率的 metric 理想运行时间（idealized runtime），对自回归 Transformer 模型进行了高效的估计。使用这些方法，作者对十种最先进的 LLM 进行了比较，并提出了多项结论，包括一些 API 的推理效率超过其他模型的原因是由于 API 中的优化措施而不是所使用的模型本身。

May, 2023

大型语言模型的训练、微调和推理的运行时性能剖析

通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试，本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。

Nov, 2023

从文字到瓦特：大型语言模型推理的能源成本基准测试

大型语言模型（LLMs）的计算和能源资源利用的推理性能进行了基准测试和初步分析，分析了不同规模的 LLMa 在两代热门 GPU（NVIDIA V100 和 A100）以及两个数据集（Alpaca 和 GSM8K）上的推理性能与推理能源成本。

Oct, 2023

大型语言模型的效率谱：算法调查

综述了旨在改善大型语言模型 (Large Language Models) 效率的算法进展，包括扩展法则、数据利用、架构创新、训练和调优策略以及推理技术等多个方面，旨在为研究人员和从业者提供宝贵的资源，并为未来的创新奠定基础。

Dec, 2023

提高大型语言模型的推理效率：研究优化策略与架构创新

通过跳过 Transformer LLMs 中后面的 attention 子层，可以有效地对大型语言模型进行压缩，提升性能并降低计算成本。在 Llama 2 7B 上观察到 21% 的生成速度提升，并出乎意料地改善了在多个常见基准测试中的性能。

Apr, 2024

高效大型语言模型：综述

大型语言模型在自然语言理解、语言生成和复杂推理等重要任务中展示出了卓越的能力，并有潜力对我们的社会产生重大影响。然而，这些能力所需的资源相当可观，强调了开发有效的技术来解决其效率挑战的迫切需求。本调研以系统和全面的方式概述了高效大型语言模型的研究成果，从模型中心、数据中心和框架中心的角度，将文献进行了分类整理。我们还创建了一个 GitHub 存储库，在这个存储库中收集了本调研中涉及的论文，并将积极维护并整合新的研究成果。希望本调研能为研究人员和从业者提供有价值的资源，帮助他们系统地了解高效大型语言模型的研究进展，并激励他们为这个重要而激动人心的领域做出贡献。

Dec, 2023

从解码到元生成：大型语言模型的推理时间算法

通过对大型语言模型的研究，发现在训练过程中提高计算能力可以取得更好的结果，然而对于推断阶段提高计算能力的好处却没有得到足够的关注。本文调查了推断阶段的几种方法，包括基于令牌级别的生成算法、元生成算法和高效生成方法，并从传统自然语言处理、现代大型语言模型和机器学习系统的角度统一了观点。

Jun, 2024

基于深度学习的大规模语言模型在自然语言处理任务中的效率优化

通过理论分析大规模语言模型的内部结构和操作机制，探讨 Transformer 及其派生体结构如何在捕获长期依赖时限制计算效率，深入挖掘训练阶段的效率瓶颈，并详细评估自适应优化算法（如 AdamW）、大规模并行计算技术和混合精度训练策略对加速收敛和减少内存占用的贡献，同时系统地回顾了模型压缩技术的最新进展，侧重于量化、修剪和知识蒸馏等策略，通过比较这些技术的理论框架及其在不同应用场景中的效果，展示了它们在显著减小模型规模和推理延迟、同时保持模型预测准确性方面的能力，并且对当前效率优化方法的局限性（如过拟合风险、压缩后性能损失控制以及算法通用性问题）进行了批判性审查，提出了未来研究的一些展望，最终为理解大规模语言模型的效率优化提供了全面的理论框架。

May, 2024

高效多模态大型语言模型综述

在这份调研报告中，我们综述了当前高效多模态大语言模型（MLLMs）的研究状况，包括代表性的高效 MLLM 的时间线、高效结构和策略的研究现状以及应用领域。最后，我们讨论了目前高效 MLLM 研究的限制和有前途的未来方向。

May, 2024