RankAdaptor: 针对结构修剪的层次动态低秩适应性建模

Jun, 2024

RankAdaptor: 针对结构修剪的层次动态低秩适应性建模

RankAdaptor: Hierarchical Dynamic Low-Rank Adaptation for Structural Pruned LLMs

Changhai Zhou, Shijie Han, Shiyang Zhang, Shichao Weng, Zekai Liu...

TL;DR采用 RankAdaptor 的分层动态秩调度方法，有效地微调剪枝的大型语言模型 (LLM)，在不增加训练参数的情况下，进一步减小剪枝模型恢复精度与原始模型之间的性能差距。

Abstract

The efficient compression of large language models (LLMs) is becoming increasingly popular. However, recovering the accuracy of compressed LLMs is still a major challenge. →

large language models compression llm compression structural pruning rankadaptor

发现论文，激发创造

PRILoRA：修剪和增大秩的低秩适应

PRILoRA 通过在线性分配不同的秩给每一层并在训练过程中进行剪枝，考虑到权重的临时大小和给定层的输入的累积统计信息，验证了其在八个 GLUE 基准测试中的有效性，取得了最新的技术成果。

Jan, 2024

低秩适应的表达能力

使用低秩适应（LoRA）参数有效的微调方法，通过分析其表达能力和近似误差，证明了 LoRA 方法能够将预训练模型适应到较小目标模型，并适用于全连接神经网络和 Transformer 网络。

Oct, 2023

ALoRA: 为大型语言模型调整低秩适应

通过 AB-LoRA 方法，逐步修剪过多和负面影响的 LoRA 排名，并将修剪后的 LoRA 预算分配给需要更高排名的重要 Transformer 模块，实现了分配低秩适应 (ALoRA) 的灵活下游任务适应方法。实验结果表明，ALoRA 方法在可调参数相当的情况下优于最近的基准模型。

Mar, 2024

稀疏低秩的预训练语言模型适应

在对大规模预训练语言模型进行提升调优的过程中，我们通过引入稀疏低秩适应性的创新方法（SoRA），使得适应过程中能够动态地调整内在秩，从而提高 LoRA 的表现能力，同时通过更新稀疏方式高效地控制参数数量。实验结果表明，SoRA 在保留 70% 参数和训练时间的情况下，能够胜过其他基准模型。

Nov, 2023

DyLoRA: 使用动态无搜索低秩适应进行参数高效微调预训练模型

本文提出了一种名为 Dynamic Low-Rank Adaptation 的技术，旨在通过训练预训练模型的适配器模块，为多个秩数建立动态搜索免费的模型，并证明该方法可以显著加快训练速度并在 GLUE 基准测试中取得一致的优秀表现。

Oct, 2022

LoTR：低张量秩权重适应

本文提出了一种新颖的参数高效微调方法 LoTR，通过张量分解的形式对参数进行梯度更新，进而构建每层的低秩适配器。LoTR 在低秩张量表示下对一系列层进行压缩，尤其适用于深度模型，相比于 LoRA 具有更好的参数效率，且核心张量不依赖于原始权重维度，可以变得任意小，可实现极为廉价快速的下游微调。

Feb, 2024

LoRA+：大型模型的高效低秩自适应

通过设置适当的比率为 LoRA 适配器矩阵 A 和 B 设置不同的学习率，我们提出了一种名为 LoRA$+$ 的算法，解决了 LoRA 的次优问题同时提高了性能（1-2％改进）和微调速度（最高约 2 倍速度提升）的问题。

Feb, 2024

AutoLoRA: 基于元学习的低秩适应中矩阵秩的自动调整

AutoLoRA 是基于元学习的框架，用于自动识别每个 LoRA 层的最佳秩，通过与选择变量相关联的方法确定最佳秩，并在自然语言理解、生成和序列标记等任务上证明了其有效性。

Mar, 2024

用于细调的 Rank 稳定化缩放因子及其 LoRA 方法

通过修改 Low-Rank Adapters 方法中的缩放因子，我们提出了一种称为 rank-stabilized LoRA (rsLoRA) 的方法，可以在训练期间用更多的计算资源来换取更好的 fine-tuning 性能，并且在推理计算成本不变的情况下实现了 fine-tuning 计算性能的折中。

Nov, 2023

QDyLoRA：用于高效大型语言模型调优的量化动态低秩自适应

QLoRA 和 QDyLoRA 是一种用于大型语言模型的有效量化方法，能够在 GPU 内存限制下进行适应性微调，并在寻找适合的低秩参数方面具有竞争力。

Feb, 2024