更快、更轻的 LLM：关于当前挑战和前进方向的调查

IJCAIFeb, 2024

更快、更轻的 LLM：关于当前挑战和前进方向的调查

Faster and Lighter LLMs: A Survey on Current Challenges and Way Forward

Arnav Chavan, Raghav Magazine, Shubham Kushwaha, Mérouane Debbah, Deepak Gupta

TL;DR调查了 LLMs 的压缩方法和系统级优化方法，提出实验评估结果和改进方向，为高效 LLM 部署提供了实用见解。

Abstract

Despite the impressive performance of llms, their widespread adoption faces challenges due to substantial computational and memory requirements during inference. Recent advancements in model compression and syste

llms model compression system-level optimization methods llama(/2)-7b llm deployment

发现论文，激发创造

LLM 加速、优化和应用的新解决方案

该研究综述了针对大型语言模型（LLMs）的挑战以及提高系统效率的最新进展和研究方向，包括算法级加速技术、LLM 硬件与软件协同设计策略、LLMs 加速器编译方法以及利用 LLMs 辅助电路设计的方法。通过这些工作，旨在为 LLMs 在各种应用中实现更高效、可扩展的部署铺平道路。

Jun, 2024

大语言模型的高效推论综述

大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题，本文对提高大规模语言模型推理效率的现有技术文献进行了综述，介绍了数据层、模型层和系统层优化的方法，并通过实验进行了定量分析，最后总结了相关知识，并探讨了未来研究方向。

Apr, 2024

在 CPU 上高效 LLM 推断

本论文提出了一种有效的方法，可以更高效地部署大型语言模型，通过自动 INT4 纯权重量化流和设计具有高度优化内核的特殊 LLM 运行时，在 CPU 上加速 LLM 推理，展示了该方法对包括 Llama2、Llama、GPT-NeoX 等流行 LLM 的普适性，并显示了在 CPU 上的极高推理效率。

Nov, 2023

大型语言模型的模型压缩综述

该论文提供了针对大型语言模型的模型压缩技术的综述调查，涵盖量化、修剪、知识蒸馏等各种方法，并探讨了压缩后的大型语言模型的基准策略和评估指标，旨在促进效率和实际应用的提升，为领域的未来发展奠定了基础。

Aug, 2023

高效大型语言模型：综述

大型语言模型在自然语言理解、语言生成和复杂推理等重要任务中展示出了卓越的能力，并有潜力对我们的社会产生重大影响。然而，这些能力所需的资源相当可观，强调了开发有效的技术来解决其效率挑战的迫切需求。本调研以系统和全面的方式概述了高效大型语言模型的研究成果，从模型中心、数据中心和框架中心的角度，将文献进行了分类整理。我们还创建了一个 GitHub 存储库，在这个存储库中收集了本调研中涉及的论文，并将积极维护并整合新的研究成果。希望本调研能为研究人员和从业者提供有价值的资源，帮助他们系统地了解高效大型语言模型的研究进展，并激励他们为这个重要而激动人心的领域做出贡献。

Dec, 2023

LLM 推理揭示：调查及屋顶线模型洞见

大型语言模型 (LLM) 推理的高效领域正迅速发展，我们的研究通过基于屋顶线模型的框架，系统分析 LLM 推理技术，鉴别 LLM 部署瓶颈，深入理解实际设备的实际方面，并综合整理权重优化、解码算法改进和硬件系统增强等关键领域的最新进展，提供了全面而细致的高效 LLM 推理挑战和解决方案探索。

Feb, 2024

高效多模态大型语言模型综述

在这份调研报告中，我们综述了当前高效多模态大语言模型（MLLMs）的研究状况，包括代表性的高效 MLLM 的时间线、高效结构和策略的研究现状以及应用领域。最后，我们讨论了目前高效 MLLM 研究的限制和有前途的未来方向。

May, 2024

理解 LLMs: 从训练到推理的综合概述

ChatGPT 的引入使得大型语言模型（LLM）被广泛应用于解决后续任务，而在此背景下，低成本的 LLM 培训和部署代表着未来的发展趋势。本文回顾了与这一新兴趋势相一致的大型语言模型培训技术和推理部署技术的演变。在培训方面，讨论了数据预处理、培训架构、预训练任务、并行培训以及与模型微调相关的内容。在推理方面，本文涵盖了模型压缩、并行计算、内存调度和结构优化等主题。它还探讨了 LLM 的利用并提供了对其未来发展的见解。

Jan, 2024

LLM 闪电般的运算：利用有限内存高效推理的大型语言模型

本研究旨在通过使用闪存将模型参数存储在 DRAM 之外，以满足超过 DRAM 容量的大型语言模型（LLMs）的高效运行需求。本文提出了两种主要技术，即通过重新使用已激活的神经元来减少数据传输的 “窗口化” 与利用闪存的顺序数据访问能力来增加数据块大小的 “行列捆绑”。这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行，并在与传统加载方法相比，CPU 和 GPU 分别实现 4-5 倍和 20-25 倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计，为在内存有限的设备上进行有效的 LLMs 推理铺平了道路。

Dec, 2023

大型语言模型的效率谱：算法调查

综述了旨在改善大型语言模型 (Large Language Models) 效率的算法进展，包括扩展法则、数据利用、架构创新、训练和调优策略以及推理技术等多个方面，旨在为研究人员和从业者提供宝贵的资源，并为未来的创新奠定基础。

Dec, 2023