大型语言模型的模型压缩与高效推理：调研

Feb, 2024

大型语言模型的模型压缩与高效推理：调研

Model Compression and Efficient Inference for Large Language Models: A Survey

Wenxiao Wang, Wei Chen, Yicong Luo, Yongliu Long, Zhengkai Lin...

TL;DR这篇论文研究了大型语言模型的压缩和高效推理方法，介绍了分类为量化、修剪、蒸馏、紧凑架构设计和动态网络的压缩和加速算法，并提出了中型模型和真正大型模型的区分。此外，还介绍了一些用于大型模型高效推理的成熟框架，可以支持基本的压缩或加速算法，极大地方便了用户的模型部署。

Abstract

Transformer based large language models have achieved tremendous success. However, the significant memory and computational costs incurred during the inference process make it challenging to deploy large models on resource-constrained devices. In this paper, we investigate

large language models compression inference methods quantization pruning

发现论文，激发创造

大型语言模型的模型压缩综述

该论文提供了针对大型语言模型的模型压缩技术的综述调查，涵盖量化、修剪、知识蒸馏等各种方法，并探讨了压缩后的大型语言模型的基准策略和评估指标，旨在促进效率和实际应用的提升，为领域的未来发展奠定了基础。

Aug, 2023

语言模型压缩算法综述

如何在不牺牲准确性的情况下压缩语言模型，本论文调查和总结了包括修剪、量化、知识蒸馏等在内的多样化压缩算法，并对其进行了深入分析，并根据我们的调查结果介绍了有前景的未来研究主题。

Jan, 2024

基于深度学习的大规模语言模型在自然语言处理任务中的效率优化

通过理论分析大规模语言模型的内部结构和操作机制，探讨 Transformer 及其派生体结构如何在捕获长期依赖时限制计算效率，深入挖掘训练阶段的效率瓶颈，并详细评估自适应优化算法（如 AdamW）、大规模并行计算技术和混合精度训练策略对加速收敛和减少内存占用的贡献，同时系统地回顾了模型压缩技术的最新进展，侧重于量化、修剪和知识蒸馏等策略，通过比较这些技术的理论框架及其在不同应用场景中的效果，展示了它们在显著减小模型规模和推理延迟、同时保持模型预测准确性方面的能力，并且对当前效率优化方法的局限性（如过拟合风险、压缩后性能损失控制以及算法通用性问题）进行了批判性审查，提出了未来研究的一些展望，最终为理解大规模语言模型的效率优化提供了全面的理论框架。

May, 2024

预训练语言模型压缩和加速综述

该文章调查了预训练语言模型的压缩和加速方法，重点关注了模型在 NLP 领域推理阶段的表现，并提出为 NLP 的整个生命周期（包括数据准备、模型训练和推理）综合考虑计算、时间和碳排放的高效 NLP 研究。

Feb, 2022

Transformer 压缩综述

在该研究中，作者通过综述了解压缩方法对 Transformer 模型在自然语言处理和计算机视觉领域的应用，并对修剪、量化等压缩方法进行了分类和讨论。

Feb, 2024

提高大型语言模型的推理效率：研究优化策略与架构创新

通过跳过 Transformer LLMs 中后面的 attention 子层，可以有效地对大型语言模型进行压缩，提升性能并降低计算成本。在 Llama 2 7B 上观察到 21% 的生成速度提升，并出乎意料地改善了在多个常见基准测试中的性能。

Apr, 2024

大语言模型的高效推论综述

大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题，本文对提高大规模语言模型推理效率的现有技术文献进行了综述，介绍了数据层、模型层和系统层优化的方法，并通过实验进行了定量分析，最后总结了相关知识，并探讨了未来研究方向。

Apr, 2024

语言建模即压缩

通过压缩模型来解决预测问题和训练大型语言模型的相关研究，大型语言模型展现出强大的预测和压缩能力，此视角为规模定律、分词和上下文学习提供了新的观点，并且可以使用任何压缩器构建条件生成模型。

Sep, 2023

训练大模型，压缩小模型：重新思考 Transformers 的高效训练与推断模型大小

研究表明，即使较小的 Transformer 模型在每次迭代中执行更快，较宽且较深的模型在明显更少的步骤中收敛。此外，大型模型比小型模型更 robust，因此，高度压缩的大型模型实现比轻度压缩的小型模型更高的准确性

Feb, 2020

大型语言模型的结构裁剪

该研究通过结构化剪枝方法，以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量，提高了大型语言模型的压缩效果和训练 / 推理速度，并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。

Oct, 2019