LoRA专家混合模型
研究提出了一种新颖的参数高效的MoE方法,称为MoLA,适用于基于Transformer的模型,通过为每个模型层分配不同数量的LoRA专家,该方法在六个著名的NLP和常识QA基准上展示了与基线相当或更好的性能,该工作可以作为各种应用的即插即用的参数高效调优方法。
Feb, 2024
使用动态融合权重的LoRA-Flow方法在六个生成任务中实验证明,相较于基准方法的任务级融合权重,我们的方法始终表现优异,强调了引入动态融合权重对于LoRA组合的必要性。
Feb, 2024
使用Mixture-of-LoRAs (MoA)架构的多任务学习方法,通过培训多个领域特定的LoRA模块,采用明确的路由策略和领域标签来防止任务之间的干扰,并最终提高每个个体任务的性能,进而促进领域特定大语言模型(LLMs)的广泛应用。
Mar, 2024
提出了一种基于LoRA的资源高效稀疏MoE模型构建方法,名为MixLoRA,能够在消费级GPU上实现多个专家模型的并行微调,减少了GPU内存消耗41%和训练过程中的延迟17%。
Apr, 2024
通过一系列实验,我们发现了两个关键的见解,揭示了LoRA的训练和参数效率问题,基于这些见解,我们开发了HydraLoRA,这是一个具有不对称结构的LoRA框架,消除了对领域专业知识的需求,我们的实验表明,HydraLoRA优于其他PEFT方法,即使在训练和推断阶段依赖领域知识的情况下。
Apr, 2024
本研究解决了现有LoRA合并方法无法充分利用LoRA模块化特性的问题,导致参数干扰和性能下降。通过引入最小语义单元(MSUs)和LoRA-LEGO框架,提出按秩聚类并灵活组合LoRA参数,实验表明该方法在各类基准测试中表现优于现有方法。
Sep, 2024
本研究解决了目前LoRA组合方法在任务特定适应性上的局限,导致参数相互干扰和性能下降的问题。本文提出了最小语义单元(MSU)的概念,开发了LoRA-LEGO框架,通过对不同LoRA的MSU进行秩聚类,灵活组合生成新的LoRA。实验结果表明,该方法在LoRA合并方面优于现有的技术。
Sep, 2024
本研究解决了大型语言模型(LLMs)在特定领域微调时高资源消耗的问题,提出了一种动态轻量级插件DLP-LoRA,通过使用仅5M参数的小型MLP模块,在句子层面动态融合多个LoRA,提高了推理效率。实验结果显示,DLP-LoRA在多个任务上表现优异,平均准确率达92.34%,并在问答数据集上显著提高了BLEU和ROUGE分数,展现出高效的多任务适应能力。
Oct, 2024
本研究解决了LoRA专家在不同层之间分配不均匀的问题,提出了一种基于重尾自我正则化理论的精细分配策略。研究表明,各层的专家数量与层训练质量密切相关,并且各层之间存在显著差异。AlphaLoRA通过理论指导的无训练方法降低了冗余,在十个语言处理和推理基准上表现出优于或与现有方法相当的性能。
Oct, 2024
本研究解决了在缺乏目标任务训练数据的情况下如何有效合并不同的LoRA模块以实现技能组合的问题。通过提出连接LoRA(CAT)的方法,研究表明其在解决需要组合多项技能的任务时,比现有模型和数据融合技术表现优越,尤其在数学词题上,性能提升达到平均43%和12%。
Oct, 2024