LoRAHub是一个用于组合多个训练在不同任务上的LoRA模块的战略性框架,旨在实现在未知任务上的适应性性能,可以有效地模拟在少样本情况下的上下文学习表现,无需上下文示例。
Jul, 2023
LoraRetriever是一个检索后合成的框架,根据输入提示自适应地检索和组合多个LoRA,实验结果表明LoraRetriever始终优于基线模型,突出了其实际效果和通用性。
Feb, 2024
使用动态融合权重的LoRA-Flow方法在六个生成任务中实验证明,相较于基准方法的任务级融合权重,我们的方法始终表现优异,强调了引入动态融合权重对于LoRA组合的必要性。
使用Mixture-of-LoRAs (MoA)架构的多任务学习方法,通过培训多个领域特定的LoRA模块,采用明确的路由策略和领域标签来防止任务之间的干扰,并最终提高每个个体任务的性能,进而促进领域特定大语言模型(LLMs)的广泛应用。
Mar, 2024
引入了Mixture of LoRA Experts (MoLE)方法,利用分层控制和无限制的分支选择,实现了对LoRA的优化融合性能和弹性组合能力的提升。通过在自然语言处理(NLP)和视觉与语言(V&L)领域进行广泛的实验评估,证实了MoLE的有效性。
Apr, 2024
通过在编程和数学这两个目标领域上比较 Low-Rank Adaptation (LoRA) 和全精调 (full finetuning) 的性能,我们发现在大多数情况下,LoRA的表现明显逊于全精调;然而,LoRA展现了一种理想的正则化形式,并且可以更好地保持基础模型在目标领域之外的任务表现,同时比传统技术如权重衰减和dropout提供了更强的正则化效果,并有助于生成更多样化的结果。我们还发现全精调学习到的扰动比典型LoRA配置的秩高10-100倍,这可能解释了一些报告中的差距。最后,我们提出了在使用LoRA进行精调时的最佳实践建议。
May, 2024
本研究解决了在复杂下游任务中,单一尺度更新参数可能不是最佳选择的问题。通过扩展低秩适应方法(LoRA)到多尺度,提出了LoRA$^2$,并结合正交投影理论和改进的重要性评分算法,显著减少了训练参数数量,提升了适应性和性能。研究结果表明,LoRA$^2$在微调中仅需0.72%的参数,仍能实现与基线相当的性能,展现了其高效性和潜在影响。
Aug, 2024
本研究解决了现有LoRA合并方法无法充分利用LoRA模块化特性的问题,导致参数干扰和性能下降。通过引入最小语义单元(MSUs)和LoRA-LEGO框架,提出按秩聚类并灵活组合LoRA参数,实验表明该方法在各类基准测试中表现优于现有方法。
Sep, 2024
本研究解决了目前LoRA组合方法在任务特定适应性上的局限,导致参数相互干扰和性能下降的问题。本文提出了最小语义单元(MSU)的概念,开发了LoRA-LEGO框架,通过对不同LoRA的MSU进行秩聚类,灵活组合生成新的LoRA。实验结果表明,该方法在LoRA合并方面优于现有的技术。
本研究解决了LoRA专家在不同层之间分配不均匀的问题,提出了一种基于重尾自我正则化理论的精细分配策略。研究表明,各层的专家数量与层训练质量密切相关,并且各层之间存在显著差异。AlphaLoRA通过理论指导的无训练方法降低了冗余,在十个语言处理和推理基准上表现出优于或与现有方法相当的性能。
Oct, 2024