S-LoRA:为数千个并发的 LoRA 适配器提供服务
通过引入名为 Fast LoRA(FLoRA)的框架,我们可以有效地对多样化和全球用户群体的实时请求进行批处理,通过将每个输入示例与其独特的低秩适应权重关联起来,实现个性化的任务特定适应,从而缓解了 Low-Rank Adaptation (LoRA) 在处理多个任务特定适配器时的性能瓶颈。我们在包括 8 种语言的 MultiPL-E 代码生成基准和 6 种语言的多语种语音识别任务上,通过实证展示了 FLoRA 保持 LoRA 性能优点的竞争结果。
Dec, 2023
LoRA 是一种使用较少参数和内存的训练方法,研究表明,在低秩适配器的支持下,LoRA fine-tuned 模型在多个任务上表现超过基准模型 34 个百分点和 GPT-4 10 个百分点;此外,他们开发了 LoRAX 多模型推理服务器,支持多个 LoRA fine-tuned 模型在单个 GPU 上运行,以展示使用多个专用 LLM 相对于单个通用 LLM 的质量和成本效益。
Apr, 2024
本文提出了一种低秩适应方法(Low-Rank Adaptation,简称 LoRA),通过将可训练秩分解矩阵注入变压器结构的每个层中,极大地减少了下游任务中的可训练参数,并且性能与微调相当或更好,同时具有更高的训练吞吐量和没有额外推理延迟,这解决了大规模预训练模型对于微调参数和 GPU 内存占用过高的问题。
Jun, 2021
提出了一个称为 SuperLoRA 的广义框架,将不同的 LoRA 变体统一并扩展,通过引入分组、折叠、洗牌、投影和张量分解等方法,SuperLoRA 相对于其他 LoRA 变体具有更高的灵活性,在转移学习任务中表现出卓越的性能,尤其在极低参数的情况下表现出色。
Mar, 2024
深度学习模型的可扩展性受到计算资源、内存和通讯的根本限制。本文在模型预训练中探索了低秩适应(LoRA)方法的应用,介绍了 LoRA-the-Explorer(LTE)算法,通过在计算节点上进行多个低秩头的并行训练来减少同步频率,使用不同视觉数据集进行广泛实验,并证明 LTE 在标准预训练中具有竞争力。
Feb, 2024
在对大规模预训练语言模型进行提升调优的过程中,我们通过引入稀疏低秩适应性的创新方法(SoRA),使得适应过程中能够动态地调整内在秩,从而提高 LoRA 的表现能力,同时通过更新稀疏方式高效地控制参数数量。实验结果表明,SoRA 在保留 70% 参数和训练时间的情况下,能够胜过其他基准模型。
Nov, 2023
通过设置适当的比率为 LoRA 适配器矩阵 A 和 B 设置不同的学习率,我们提出了一种名为 LoRA$+$ 的算法,解决了 LoRA 的次优问题同时提高了性能(1-2%改进)和微调速度(最高约 2 倍速度提升)的问题。
Feb, 2024
本文提出了一种名为 Dynamic Low-Rank Adaptation 的技术,旨在通过训练预训练模型的适配器模块,为多个秩数建立动态搜索免费的模型,并证明该方法可以显著加快训练速度并在 GLUE 基准测试中取得一致的优秀表现。
Oct, 2022
本文提出了基于稀疏高秩适配器 (SHiRA) 的新范式,通过直接调整基模型权重的 1-2% 来训练高度稀疏的适配器,以在融合模式下实现无推理开销、快速切换和显著降低概念损失的效果。对 LVMs 和 LLMs 的广泛实验表明,仅微调基模型的一小部分参数对许多任务已经足够,并且可以同时实现快速切换和多适配器融合。
Jun, 2024
OLoRA 是对 LoRA 方法的增强,利用 QR 分解通过正交矩阵初始化来加速 LLM 训练的收敛速度,同时保留 LoRA 的高效特性,例如可训练参数数量和 GPU 内存占用,实证评估结果显示,OLoRA 不仅收敛更快,而且在各种语言建模任务上表现出更好的性能,为 LLM 的精细调整提供了更高效和可访问性的可能,从而促进自然语言应用的广泛采用和创新。
Jun, 2024