LoRAShear: 高效的大型语言模型结构剪枝与知识恢复

Oct, 2023

LoRAShear: 高效的大型语言模型结构剪枝与知识恢复

LoRAShear: Efficient Large Language Model Structured Pruning and Knowledge Recovery

Tianyi Chen, Tianyu Ding, Badal Yadav, Ilya Zharkov, Luming Liang

TL;DR大型语言模型通过高效的结构剪枝和知识迁移来减少模型规模并降低计算成本。

Abstract

large language models (LLMs) have transformed the landscape of artificial intelligence, while their enormous size presents significant challenges in terms of computational costs. We introduce lorashear, a novel e

large language models lorashear efficient approach structured pruning knowledge transfer

发现论文，激发创造

剪枝加速的 LLaMA：通过结构化剪枝加快语言模型预训练

利用结构修剪技术从预训练的大型语言模型生成更小但功能强大的语言模型。这项工作通过展示 Sheared-LLaMA 系列，在仅使用相当于从头训练这些模型所需计算量的 3％的情况下，将 LLaMA2-7B 模型修剪为 1.3B 和 2.7B 参数，优于等规模的开源模型，并提供了使用结构修剪来构建更小型语言模型更具成本效益的佐证。

Oct, 2023

大规模语言模型的结构剪枝 ——LLM-Pruner

提出一种名为 LLM-Pruner 的方法，在保持多任务求解和语言生成能力的同时，通过结构修剪来压缩 LLM，使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力，并且只需要 50K 数据，在 3 小时内就能通过调整技术（LoRA）有效地恢复性能。

May, 2023

LoRA-Switch: 动态 LLM 适配器的系统算法协同优化

在这篇论文中，我们提出了 LoRA-Switch，这是一种用于高效动态适配器的系统算法协同设计架构。通过在推理过程中优化了 CUDA 内核并融合了所有 LoRA 适配器的合并操作，我们的方法在保持了现有动态适配器类似准确性提升的同时，将解码延迟缩短了大于 2.4 倍。

May, 2024

MiLoRA: 利用次要奇异分量进行参数高效的 LLM 微调

在本文中，我们提出了一种名为 MiLoRA 的简单而有效的 LLM 微调方法，仅更新权重矩阵的次要奇异部分，而保持主要奇异部分不变，以便在微调期间最大限度地利用较少优化的子空间来学习微调数据集。通过对常识推理、数学推理和指令跟踪基准的广泛实验，展示了我们方法的卓越性能。

Jun, 2024

RankAdaptor: 针对结构修剪的层次动态低秩适应性建模

采用 RankAdaptor 的分层动态秩调度方法，有效地微调剪枝的大型语言模型 (LLM)，在不增加训练参数的情况下，进一步减小剪枝模型恢复精度与原始模型之间的性能差距。

Jun, 2024

ASPEN：使用单个 GPU 实现高吞吐量的大型语言模型 LoRA 微调

ASPEN 是一个高吞吐量的 fine-tuning 框架，通过 LoRA 方法在单个 GPU 上高效地训练多个任务，使用共享的预训练模型和自适应调度，可以显著节省 GPU 内存并提高训练吞吐量，同时减少工作轮转时间和训练延迟。

Dec, 2023

Shears：具有神经低秩适配器搜索的非结构稀疏

通过引入新颖的 Shears 方法，结合成本效益的稀疏性和神经低秩适配器搜索算法，可以进一步提高参数高效微调方法的效率。实验结果表明，与其他方法相比，Shears 方法在达到高稀疏水平的同时，提高了精度或仅稍微降低精度，并利用单个 GPU 进行了一对小时的处理。

Apr, 2024

OLoRA: 正交低秩对大型语言模型的适应

OLoRA 是对 LoRA 方法的增强，利用 QR 分解通过正交矩阵初始化来加速 LLM 训练的收敛速度，同时保留 LoRA 的高效特性，例如可训练参数数量和 GPU 内存占用，实证评估结果显示，OLoRA 不仅收敛更快，而且在各种语言建模任务上表现出更好的性能，为 LLM 的精细调整提供了更高效和可访问性的可能，从而促进自然语言应用的广泛采用和创新。

Jun, 2024

LoRA Land: 310 微调 LLM 模型媲美 GPT-4 的技术报告

LoRA 是一种使用较少参数和内存的训练方法，研究表明，在低秩适配器的支持下，LoRA fine-tuned 模型在多个任务上表现超过基准模型 34 个百分点和 GPT-4 10 个百分点；此外，他们开发了 LoRAX 多模型推理服务器，支持多个 LoRA fine-tuned 模型在单个 GPU 上运行，以展示使用多个专用 LLM 相对于单个通用 LLM 的质量和成本效益。

Apr, 2024

其中隐藏真理：使用层选择性排名降低改善语言模型的推理能力

通过选择性删除大型语言模型（LLMs）的高阶权重矩阵组成部分，可以显著提高其性能，称为 LASER（LAyer-SElective Rank reduction）方法。该方法在训练完成后对模型进行简单介入，不需要额外的参数或数据，并通过广泛的实验证明其在语言模型和数据集上的普遍适用性，同时提供了深入的分析来揭示 LASER 的有效性和运作机制。

Dec, 2023