低秩适应中的子空间混合

Jun, 2024

Mixture-of-Subspaces in Low-Rank Adaptation

Taiqiang Wu, Jiahao Wang, Zhe Zhao, Ngai Wong

TL;DR本文介绍了一种基于子空间的低秩适应方法（LoRA），该方法在计算效率、实施简易性和适用性方面具有优势，可广泛应用于大型语言、多模态和扩散模型；通过子空间的微观视角，我们发现混合两个子空间可以提升性能，并通过与原始 LoRA 权重共同学习混合器，进一步灵活性地实现该方法，称之为混合子空间 LoRA（MoSLoRA）；在不同模态的任务中，包括常识推理、视觉指令微调和基于主题的文本到图像生成，MoSLoRA 始终表现出色，验证了其有效性和稳健性。

Abstract

In this paper, we introduce a subspace-inspired low-rank adaptation (LoRA) method, which is computationally efficient, easy to implement, and readily applicable to large language, multimodal, and →

subspace-inspired low-rank adaptation multimodal models diffusion models mixture-of-subspaces lora

发现论文，激发创造

OLoRA: 正交低秩对大型语言模型的适应

OLoRA 是对 LoRA 方法的增强，利用 QR 分解通过正交矩阵初始化来加速 LLM 训练的收敛速度，同时保留 LoRA 的高效特性，例如可训练参数数量和 GPU 内存占用，实证评估结果显示，OLoRA 不仅收敛更快，而且在各种语言建模任务上表现出更好的性能，为 LLM 的精细调整提供了更高效和可访问性的可能，从而促进自然语言应用的广泛采用和创新。

Jun, 2024

MultiLoRA: 提升多任务学习效果的 LoRA 民主化

提出了 MultiLoRA，通过减少 LoRA 中观察到的顶层奇异向量的主导性，通过水平扩展 LoRA 模块和改变适应矩阵的参数初始化来减少参数依赖性，从而产生更平衡的单元子空间，从而实现更好的多任务适应性。MultiLoRA 在多个基准和模型规模上优于单个 LoRA 对应项和微调，仅需额外 2.5％的参数。对 MultiLoRA 的权重更新矩阵进行进一步研究表明，其对顶层奇异向量的依赖性减小，单元变换贡献更加均衡。

Nov, 2023

稀疏低秩的预训练语言模型适应

在对大规模预训练语言模型进行提升调优的过程中，我们通过引入稀疏低秩适应性的创新方法（SoRA），使得适应过程中能够动态地调整内在秩，从而提高 LoRA 的表现能力，同时通过更新稀疏方式高效地控制参数数量。实验结果表明，SoRA 在保留 70% 参数和训练时间的情况下，能够胜过其他基准模型。

Nov, 2023

低秩适应的表达能力

使用低秩适应（LoRA）参数有效的微调方法，通过分析其表达能力和近似误差，证明了 LoRA 方法能够将预训练模型适应到较小目标模型，并适用于全连接神经网络和 Transformer 网络。

Oct, 2023

图像生成的多 LoRA 组合

通过解码为中心的视角，本研究提出了两种无需训练的方法：LoRA Switch 和 LoRA Composite，分别通过在去噪步骤中交替使用不同的 LoRA 和同时整合所有的 LoRA，以更好地指导图像合成，从而提高了综合性能，在组合中增加 LoRA 的数量时尤为明显。

Feb, 2024

基于批处理低秩方法的基础模型适应

通过引入名为 Fast LoRA（FLoRA）的框架，我们可以有效地对多样化和全球用户群体的实时请求进行批处理，通过将每个输入示例与其独特的低秩适应权重关联起来，实现个性化的任务特定适应，从而缓解了 Low-Rank Adaptation (LoRA) 在处理多个任务特定适配器时的性能瓶颈。我们在包括 8 种语言的 MultiPL-E 代码生成基准和 6 种语言的多语种语音识别任务上，通过实证展示了 FLoRA 保持 LoRA 性能优点的竞争结果。

Dec, 2023

LoRA+：大型模型的高效低秩自适应

通过设置适当的比率为 LoRA 适配器矩阵 A 和 B 设置不同的学习率，我们提出了一种名为 LoRA$+$ 的算法，解决了 LoRA 的次优问题同时提高了性能（1-2％改进）和微调速度（最高约 2 倍速度提升）的问题。

Feb, 2024

SuperLoRA: 多层注意力模块参数高效统一适应

提出了一个称为 SuperLoRA 的广义框架，将不同的 LoRA 变体统一并扩展，通过引入分组、折叠、洗牌、投影和张量分解等方法，SuperLoRA 相对于其他 LoRA 变体具有更高的灵活性，在转移学习任务中表现出卓越的性能，尤其在极低参数的情况下表现出色。

Mar, 2024

多模态指令调节与条件化 LoRA 混合

通过与多模态指令调优相结合，引入了一种综合了条件的低秩适应矩阵 (MixLoRA) 的新方法，旨在减轻任务干扰，实现在多样的多模态任务中具有良好的适应性和灵活性。实验结果表明，MixLoRA 不仅在相同或更高秩的情况下胜过传统的低秩适应方法 LoRA，展现出其在各种多模态评估数据集上的有效性和适应性。

Feb, 2024

解码低秩适配器中的全球协同效应

我们介绍了 HeteroLoRA，这是一种轻量级的搜索算法，通过利用零成本代理在模型中分配有限的 LoRA 可训练参数，以提高微调性能，并在更具挑战性的搜索空间中展示了 HeteroLoRA 的有效性。

Jun, 2024