稀疏高秩适配器

Jun, 2024

Sparse High Rank Adapters

Kartikeya Bhardwaj, Nilesh Prasad Pandey, Sweta Priyadarshi, Viswanath Ganapathy, Rafael Esteves...

TL;DR本文提出了基于稀疏高秩适配器 (SHiRA) 的新范式，通过直接调整基模型权重的 1-2% 来训练高度稀疏的适配器，以在融合模式下实现无推理开销、快速切换和显著降低概念损失的效果。对 LVMs 和 LLMs 的广泛实验表明，仅微调基模型的一小部分参数对许多任务已经足够，并且可以同时实现快速切换和多适配器融合。

Abstract

low rank adaptation (LoRA) has gained massive attention in the recent generative AI research. One of the main advantages of LoRA is its ability to be fused with pretrained models adding no overhead during inference. However, from a mobile deployment standpoint, we can either avoid

low rank adaptation sparse high rank adapters multi-adapter fusion inference overhead rapid switching

发现论文，激发创造

稀疏低秩的预训练语言模型适应

在对大规模预训练语言模型进行提升调优的过程中，我们通过引入稀疏低秩适应性的创新方法（SoRA），使得适应过程中能够动态地调整内在秩，从而提高 LoRA 的表现能力，同时通过更新稀疏方式高效地控制参数数量。实验结果表明，SoRA 在保留 70% 参数和训练时间的情况下，能够胜过其他基准模型。

Nov, 2023

S-LoRA：为数千个并发的 LoRA 适配器提供服务

通过使用 S-LoRA 系统，可以在单个 GPU 上或多个 GPU 上以较小的开销提高吞吐量并使 LoRA 适配器的数量成倍增加，从而实现可伸缩的运行多个 Fine-tuned 模型的服务。

Nov, 2023

SiRA：稀疏低秩适应混合

稀疏混合专家 (SiRA) 是一种重要的参数高效调整方法，通过利用稀疏计算和一种新颖的专家放弃技术，SiRA 在不同的单任务和多任务设置中都优于 LoRA 和其他混合专家方法。

Nov, 2023

基于批处理低秩方法的基础模型适应

通过引入名为 Fast LoRA（FLoRA）的框架，我们可以有效地对多样化和全球用户群体的实时请求进行批处理，通过将每个输入示例与其独特的低秩适应权重关联起来，实现个性化的任务特定适应，从而缓解了 Low-Rank Adaptation (LoRA) 在处理多个任务特定适配器时的性能瓶颈。我们在包括 8 种语言的 MultiPL-E 代码生成基准和 6 种语言的多语种语音识别任务上，通过实证展示了 FLoRA 保持 LoRA 性能优点的竞争结果。

Dec, 2023

LoRA+：大型模型的高效低秩自适应

通过设置适当的比率为 LoRA 适配器矩阵 A 和 B 设置不同的学习率，我们提出了一种名为 LoRA$+$ 的算法，解决了 LoRA 的次优问题同时提高了性能（1-2％改进）和微调速度（最高约 2 倍速度提升）的问题。

Feb, 2024

解码低秩适配器中的全球协同效应

我们介绍了 HeteroLoRA，这是一种轻量级的搜索算法，通过利用零成本代理在模型中分配有限的 LoRA 可训练参数，以提高微调性能，并在更具挑战性的搜索空间中展示了 HeteroLoRA 的有效性。

Jun, 2024

使用并行低秩适配器从头训练神经网络

深度学习模型的可扩展性受到计算资源、内存和通讯的根本限制。本文在模型预训练中探索了低秩适应（LoRA）方法的应用，介绍了 LoRA-the-Explorer（LTE）算法，通过在计算节点上进行多个低秩头的并行训练来减少同步频率，使用不同视觉数据集进行广泛实验，并证明 LTE 在标准预训练中具有竞争力。

Feb, 2024

低秩适应的表达能力

使用低秩适应（LoRA）参数有效的微调方法，通过分析其表达能力和近似误差，证明了 LoRA 方法能够将预训练模型适应到较小目标模型，并适用于全连接神经网络和 Transformer 网络。

Oct, 2023

用于细调的 Rank 稳定化缩放因子及其 LoRA 方法

通过修改 Low-Rank Adapters 方法中的缩放因子，我们提出了一种称为 rank-stabilized LoRA (rsLoRA) 的方法，可以在训练期间用更多的计算资源来换取更好的 fine-tuning 性能，并且在推理计算成本不变的情况下实现了 fine-tuning 计算性能的折中。

Nov, 2023

LoRA: 大型语言模型的低秩适应

本文提出了一种低秩适应方法（Low-Rank Adaptation，简称 LoRA），通过将可训练秩分解矩阵注入变压器结构的每个层中，极大地减少了下游任务中的可训练参数，并且性能与微调相当或更好，同时具有更高的训练吞吐量和没有额外推理延迟，这解决了大规模预训练模型对于微调参数和 GPU 内存占用过高的问题。

Jun, 2021