语言模型压缩算法综述

Jan, 2024

A Comprehensive Survey of Compression Algorithms for Language Models

Seungcheol Park, Jaehyeon Choi, Sojin Lee, U Kang

TL;DR如何在不牺牲准确性的情况下压缩语言模型，本论文调查和总结了包括修剪、量化、知识蒸馏等在内的多样化压缩算法，并对其进行了深入分析，并根据我们的调查结果介绍了有前景的未来研究主题。

Abstract

How can we compress language models without sacrificing accuracy? The number of compression algorithms for language models is rapidly grow

compression algorithms language models pruning quantization knowledge distillation

发现论文，激发创造

大型语言模型的模型压缩综述

该论文提供了针对大型语言模型的模型压缩技术的综述调查，涵盖量化、修剪、知识蒸馏等各种方法，并探讨了压缩后的大型语言模型的基准策略和评估指标，旨在促进效率和实际应用的提升，为领域的未来发展奠定了基础。

Aug, 2023

大型语言模型的模型压缩与高效推理：调研

这篇论文研究了大型语言模型的压缩和高效推理方法，介绍了分类为量化、修剪、蒸馏、紧凑架构设计和动态网络的压缩和加速算法，并提出了中型模型和真正大型模型的区分。此外，还介绍了一些用于大型模型高效推理的成熟框架，可以支持基本的压缩或加速算法，极大地方便了用户的模型部署。

Feb, 2024

压缩的成本：研究压缩对语言模型参数化知识的影响

压缩大型语言模型（LLM）包含数十亿参数，可以提供更快的推理速度，更小的内存占用，并支持本地部署。我们通过对多个模型系列（ENCODER、ENCODER-DECODER 和 DECODER）使用 LAMA 和 LM-HARNESS 基准进行全面分析，以系统量化常用压缩技术对模型性能的影响，特别关注涉及参数化知识的权衡，旨在为从业人员提供实用的见解，帮助他们在压缩决策时做出明智的选择。

Dec, 2023

生物识别应用中的模型压缩技术综述

深度学习算法在提高人类任务自动化能力方面发挥了重要作用，然而，这些模型性能的巨大提升与其日益复杂性高度相关，限制了它们在以人为本的应用中的实用性，而这些应用通常部署在资源受限的设备上。因此，我们需要压缩技术来大幅减小深度学习模型的计算和内存成本，同时又能保持较高的性能。本文通过对模型压缩技术的综述，特别关注量化、知识蒸馏和修剪等方法在生物特征识别应用中的应用，从而对该领域的研究现状进行了系统化总结。我们对这些技术的比较价值进行了关键分析，着重讨论了它们的优点和缺点，并提出了进一步研究方向的建议，以改进当前的方法。此外，我们还讨论和分析了模型偏见与模型压缩之间的联系，强调了未来的研究需要将压缩技术引向模型公平性的方向。

Jan, 2024

基于压缩的 LLM 排名

我们将理解过程视为信息压缩，并提出了一种基于无损数据压缩的大型语言模型（LLMs）排序方法。我们使用五个大型语言模型作为压缩的先验，并比较它们在困难的自然语言处理任务中的性能，包括句子完成、问题回答和共指消解。实验结果表明，压缩比率和模型性能呈正相关，因此可以作为评估大型语言模型的通用指标。

Jun, 2024

语言建模即压缩

通过压缩模型来解决预测问题和训练大型语言模型的相关研究，大型语言模型展现出强大的预测和压缩能力，此视角为规模定律、分词和上下文学习提供了新的观点，并且可以使用任何压缩器构建条件生成模型。

Sep, 2023

当小的更小时会发生什么？探究对小数据预训练语言模型进行压缩的影响

压缩技术对小规模数据语言模型的效率和效果具有显著改善作用，证实了对大规模参数化模型的压缩效果的普遍观点同样适用于小规模数据模型。

Apr, 2024

基于深度学习的大规模语言模型在自然语言处理任务中的效率优化

通过理论分析大规模语言模型的内部结构和操作机制，探讨 Transformer 及其派生体结构如何在捕获长期依赖时限制计算效率，深入挖掘训练阶段的效率瓶颈，并详细评估自适应优化算法（如 AdamW）、大规模并行计算技术和混合精度训练策略对加速收敛和减少内存占用的贡献，同时系统地回顾了模型压缩技术的最新进展，侧重于量化、修剪和知识蒸馏等策略，通过比较这些技术的理论框架及其在不同应用场景中的效果，展示了它们在显著减小模型规模和推理延迟、同时保持模型预测准确性方面的能力，并且对当前效率优化方法的局限性（如过拟合风险、压缩后性能损失控制以及算法通用性问题）进行了批判性审查，提出了未来研究的一些展望，最终为理解大规模语言模型的效率优化提供了全面的理论框架。

May, 2024

Transformer 压缩综述

在该研究中，作者通过综述了解压缩方法对 Transformer 模型在自然语言处理和计算机视觉领域的应用，并对修剪、量化等压缩方法进行了分类和讨论。

Feb, 2024

通过数据压缩评估大型语言模型的泛化能力和鲁棒性

我们提出了一种基于无损数据压缩的评估方法，用于测试模型训练截断后的预测能力广义化情况。我们收集了从 2017 年到 2023 年的 83 个月的全面测试数据，并根据模型的训练数据截断将数据分为训练和测试期。我们通过测试期的压缩性能作为对未见数据广义化的度量，以及训练期和测试期之间的性能差距作为鲁棒性的度量来进行测量。实验测试了 14 种具有各种规模的代表性大型语言模型，包括维基百科、新闻文章、代码、arXiv 论文和多模态数据。我们发现许多模型的压缩率在其截断日期后显著降低，但 Mistral 和 Llama-2 等模型在性能和鲁棒性之间取得了良好的平衡。结果还表明，模型在新闻和代码数据上很难广义化，但在 arXiv 论文上表现特别好。我们还发现上下文大小和标记化实现对整体压缩性能有很大影响。

Feb, 2024