SuperLoRA: 多层注意力模块参数高效统一适应
GLoRA 是一种用于通用参数节约的微调任务的高级方法。它使用广义提示模块来优化预训练模型权重和调整中间激活,并通过采用可伸缩的、模块化的逐层结构搜索来促进高效参数适应,从而实现强大的转移学习、少样本学习和领域泛化能力。
Jun, 2023
提出了 MultiLoRA,通过减少 LoRA 中观察到的顶层奇异向量的主导性,通过水平扩展 LoRA 模块和改变适应矩阵的参数初始化来减少参数依赖性,从而产生更平衡的单元子空间,从而实现更好的多任务适应性。MultiLoRA 在多个基准和模型规模上优于单个 LoRA 对应项和微调,仅需额外 2.5%的参数。对 MultiLoRA 的权重更新矩阵进行进一步研究表明,其对顶层奇异向量的依赖性减小,单元变换贡献更加均衡。
Nov, 2023
LoRA 是一种高效适应大型语言模型 (LLM) 的首选方法,具有显著的简洁性和有效性,本文提供了对原始 LoRA 论文的补充视角,并为大规模部署 LoRA 提供了一系列的见解,以改善对 LoRA 的理解和应用。
Apr, 2024
通过引入名为 Fast LoRA(FLoRA)的框架,我们可以有效地对多样化和全球用户群体的实时请求进行批处理,通过将每个输入示例与其独特的低秩适应权重关联起来,实现个性化的任务特定适应,从而缓解了 Low-Rank Adaptation (LoRA) 在处理多个任务特定适配器时的性能瓶颈。我们在包括 8 种语言的 MultiPL-E 代码生成基准和 6 种语言的多语种语音识别任务上,通过实证展示了 FLoRA 保持 LoRA 性能优点的竞争结果。
Dec, 2023
通过 AB-LoRA 方法,逐步修剪过多和负面影响的 LoRA 排名,并将修剪后的 LoRA 预算分配给需要更高排名的重要 Transformer 模块,实现了分配低秩适应 (ALoRA) 的灵活下游任务适应方法。实验结果表明,ALoRA 方法在可调参数相当的情况下优于最近的基准模型。
Mar, 2024
使用低秩适应(LoRA)参数有效的微调方法,通过分析其表达能力和近似误差,证明了 LoRA 方法能够将预训练模型适应到较小目标模型,并适用于全连接神经网络和 Transformer 网络。
Oct, 2023
OLoRA 是对 LoRA 方法的增强,利用 QR 分解通过正交矩阵初始化来加速 LLM 训练的收敛速度,同时保留 LoRA 的高效特性,例如可训练参数数量和 GPU 内存占用,实证评估结果显示,OLoRA 不仅收敛更快,而且在各种语言建模任务上表现出更好的性能,为 LLM 的精细调整提供了更高效和可访问性的可能,从而促进自然语言应用的广泛采用和创新。
Jun, 2024
通过使用 S-LoRA 系统,可以在单个 GPU 上或多个 GPU 上以较小的开销提高吞吐量并使 LoRA 适配器的数量成倍增加,从而实现可伸缩的运行多个 Fine-tuned 模型的服务。
Nov, 2023
本研究通过使用 Parameter-Efficient Fine-Tuning 中的 Low-Rank Adaptation (LoRA) 探索了复杂且未被充分研究的多语言摘要任务的潜力,研究发现 LoRA 在低数据情况和跨语言转移中表现出色,当模型增大时,LoRA 和完全微调之间的性能差距减小,同时,继续训练 LoRA 获得了最佳的少样本跨语言转移表现。
Nov, 2023
通过设置适当的比率为 LoRA 适配器矩阵 A 和 B 设置不同的学习率,我们提出了一种名为 LoRA$+$ 的算法,解决了 LoRA 的次优问题同时提高了性能(1-2%改进)和微调速度(最高约 2 倍速度提升)的问题。
Feb, 2024