MultiLoRA: 提升多任务学习效果的 LoRA 民主化
提出了一个称为 SuperLoRA 的广义框架,将不同的 LoRA 变体统一并扩展,通过引入分组、折叠、洗牌、投影和张量分解等方法,SuperLoRA 相对于其他 LoRA 变体具有更高的灵活性,在转移学习任务中表现出卓越的性能,尤其在极低参数的情况下表现出色。
Mar, 2024
通过引入名为 Fast LoRA(FLoRA)的框架,我们可以有效地对多样化和全球用户群体的实时请求进行批处理,通过将每个输入示例与其独特的低秩适应权重关联起来,实现个性化的任务特定适应,从而缓解了 Low-Rank Adaptation (LoRA) 在处理多个任务特定适配器时的性能瓶颈。我们在包括 8 种语言的 MultiPL-E 代码生成基准和 6 种语言的多语种语音识别任务上,通过实证展示了 FLoRA 保持 LoRA 性能优点的竞争结果。
Dec, 2023
该论文介绍了一种基于大规模预训练语言模型 (LPLMs) 的微调技术,通过矩阵变换的重新参数化方法 (MTLoRA) 在下游任务中提高模型性能,取得了显著的提升。
Mar, 2024
OLoRA 是对 LoRA 方法的增强,利用 QR 分解通过正交矩阵初始化来加速 LLM 训练的收敛速度,同时保留 LoRA 的高效特性,例如可训练参数数量和 GPU 内存占用,实证评估结果显示,OLoRA 不仅收敛更快,而且在各种语言建模任务上表现出更好的性能,为 LLM 的精细调整提供了更高效和可访问性的可能,从而促进自然语言应用的广泛采用和创新。
Jun, 2024
提出了一种基于 LoRA 的资源高效稀疏 MoE 模型构建方法,名为 MixLoRA,能够在消费级 GPU 上实现多个专家模型的并行微调,减少了 GPU 内存消耗 41% 和训练过程中的延迟 17%。
Apr, 2024
本文提出了一种低秩适应方法(Low-Rank Adaptation,简称 LoRA),通过将可训练秩分解矩阵注入变压器结构的每个层中,极大地减少了下游任务中的可训练参数,并且性能与微调相当或更好,同时具有更高的训练吞吐量和没有额外推理延迟,这解决了大规模预训练模型对于微调参数和 GPU 内存占用过高的问题。
Jun, 2021
在本研究中,我们介绍了 extbf {MT-LoRA}(多任务嵌入 LoRA),这是一个可扩展的多知识 LoRA 融合框架,旨在用于大型语言模型(LLMs)。MT-LoRA 通过混合专家(MoE)的方式将各种 LoRA 适配器集成到基本 LLM 中,使模型能够根据任务输入自动选择最相关的适配器,从而显著增强了 LLM 处理复合任务的能力。我们的评估表明,通过 MT-LoRA 装备的基本模型在解决十个问题的组合任务时,仅需一次推理过程,比单独适配器获得更好的性能,并突出了 MT-LoRA 嵌入 LLMs 中的及时目标切换能力。
May, 2024
通过在编程和数学这两个目标领域上比较 Low-Rank Adaptation (LoRA) 和全精调 (full finetuning) 的性能,我们发现在大多数情况下,LoRA 的表现明显逊于全精调;然而,LoRA 展现了一种理想的正则化形式,并且可以更好地保持基础模型在目标领域之外的任务表现,同时比传统技术如权重衰减和 dropout 提供了更强的正则化效果,并有助于生成更多样化的结果。我们还发现全精调学习到的扰动比典型 LoRA 配置的秩高 10-100 倍,这可能解释了一些报告中的差距。最后,我们提出了在使用 LoRA 进行精调时的最佳实践建议。
May, 2024
我们介绍了 HeteroLoRA,这是一种轻量级的搜索算法,通过利用零成本代理在模型中分配有限的 LoRA 可训练参数,以提高微调性能,并在更具挑战性的搜索空间中展示了 HeteroLoRA 的有效性。
Jun, 2024
GLoRA 是一种用于通用参数节约的微调任务的高级方法。它使用广义提示模块来优化预训练模型权重和调整中间激活,并通过采用可伸缩的、模块化的逐层结构搜索来促进高效参数适应,从而实现强大的转移学习、少样本学习和领域泛化能力。
Jun, 2023