基于流形对齐的层合并压缩 LLM

Jun, 2024

Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging

Deyuan Liu, Zhanyue Qin, Hairu Wang, Zhao Yang, Zecheng Wang...

TL;DR使用流形学习和归一化成对信息瓶颈测量方法的基于流形知识对齐和层合并的压缩（MKA）方法，成功降低模型大小并保持性能，在多个基准数据集和各种大语言模型中取得显著的压缩比，并且在与量化结合时，能够实现更大的压缩，提供了一种资源高效且性能保持的大语言模型压缩技术。

Abstract

While large language models (LLMs) excel in many domains, their complexity and scale challenge deployment in resource-limited environments. Current compression techniques, such as parameter pruning, often fail to

large language models compression techniques manifold learning performance preservation model compression

发现论文，激发创造

压缩的成本：研究压缩对语言模型参数化知识的影响

压缩大型语言模型（LLM）包含数十亿参数，可以提供更快的推理速度，更小的内存占用，并支持本地部署。我们通过对多个模型系列（ENCODER、ENCODER-DECODER 和 DECODER）使用 LAMA 和 LM-HARNESS 基准进行全面分析，以系统量化常用压缩技术对模型性能的影响，特别关注涉及参数化知识的权衡，旨在为从业人员提供实用的见解，帮助他们在压缩决策时做出明智的选择。

Dec, 2023

Compresso: 结构化剪枝与合作促使学习紧凑的大型语言模型

通过合作的剪枝算法和大型语言模型自身，在数据收集和训练成本昂贵的挑战下，Compresso 通过在训练过程中学习最优的剪枝决策以及引入协同提示进一步增强了剪枝算法，成功将 LLaMA-7B 剪枝至 5.4B，并在阅读理解上超过 LLaMA-7B2.62%，在共同推理、阅读理解、MMLU 和 BBH 基准测试上分别获得了 2.21%、11.43%、7.04% 和 4.81% 的更高分数，明显优于一次性剪枝基线。

Oct, 2023

压缩 LLMs：真实很少纯粹而简单

尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题，但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为 LLM-KICK 的压缩语言模型评估协议，通过其揭示了当前最先进的压缩方法的优点和缺点，并展示了稀疏化和量化对于语言理解、推理、生成、检索和摘要等任务的影响。我们希望这项研究能够促进更好的语言模型压缩方法的发展。

Oct, 2023

通过准确度预测器修剪大型语言模型

基于新的剪枝方法与准确度预测模型，本研究提出一种能够自动选择最佳模型的压缩方法，实验证明其有效性和高效性。相较于基准模型，Wikitext2 和 PTB 上的困惑度分别降低了 9.48% 和 5.76%，而平均 MMLU 准确度提高了 6.28%。

Sep, 2023

优化大型语言模型的压缩方法

基于层序之差异，我们提出了 LLM-Streamline 方法，该方法通过对模型中不重要的层进行剪枝和轻量级模型的替代训练，以减轻剪枝所引起的性能下降，并在综合实验中展示了其优于现有模型剪枝方法的效果。

Mar, 2024

剪枝加速的 LLaMA：通过结构化剪枝加快语言模型预训练

利用结构修剪技术从预训练的大型语言模型生成更小但功能强大的语言模型。这项工作通过展示 Sheared-LLaMA 系列，在仅使用相当于从头训练这些模型所需计算量的 3％的情况下，将 LLaMA2-7B 模型修剪为 1.3B 和 2.7B 参数，优于等规模的开源模型，并提供了使用结构修剪来构建更小型语言模型更具成本效益的佐证。

Oct, 2023

大型语言模型的零数据压缩和降噪

基于大型语言模型的权重分解以及压缩方法，通过新的无需语料库参与、保持正交性的数据无关联 Rank-k 近似方法，成功压缩了 80% 的参数并保留了原始性能的 93.43%。同时，对经过 Rank-k 近似的权重矩阵进行了深入研究以验证假设。

Feb, 2024

大型语言模型的模型压缩综述

该论文提供了针对大型语言模型的模型压缩技术的综述调查，涵盖量化、修剪、知识蒸馏等各种方法，并探讨了压缩后的大型语言模型的基准策略和评估指标，旨在促进效率和实际应用的提升，为领域的未来发展奠定了基础。

Aug, 2023

LaCo：大型语言模型通过层坍缩进行修剪

提出了一种被称为 extit {Layer Collapse (LaCo)} 的简洁的逐层修剪方法，将后置模型层折叠到先前层，实现了模型大小的快速减小而同时保留了模型结构；全面的实验表明，该方法在修剪比例为 25-30% 时保持了超过 80% 的平均任务性能，显著优于现有最先进的结构修剪方法；还进行了后训练实验证实所提出的修剪方法有效继承了原始模型的参数，并从逐层相似性的角度讨论了提出该方法的动机，评估了修剪的大型语言模型在各种修剪比例下的性能。

Feb, 2024

紧凑 AI：使用量子启发的张量网络对大型语言模型进行极致压缩

该研究介绍了一种创新的 LLM 压缩方法，使用量子启发的张量网络来压缩模型的相关空间，实现对 LLaMA-2 7B 模型的压缩，使其仅保留原始大小的 30%，并在经过简要分布式重新训练后恢复原始准确率的 90% 以上。

Jan, 2024