基于张量积的专家混合模型
提出了 MultiLoRA,通过减少 LoRA 中观察到的顶层奇异向量的主导性,通过水平扩展 LoRA 模块和改变适应矩阵的参数初始化来减少参数依赖性,从而产生更平衡的单元子空间,从而实现更好的多任务适应性。MultiLoRA 在多个基准和模型规模上优于单个 LoRA 对应项和微调,仅需额外 2.5%的参数。对 MultiLoRA 的权重更新矩阵进行进一步研究表明,其对顶层奇异向量的依赖性减小,单元变换贡献更加均衡。
Nov, 2023
该论文介绍了一种基于大规模预训练语言模型 (LPLMs) 的微调技术,通过矩阵变换的重新参数化方法 (MTLoRA) 在下游任务中提高模型性能,取得了显著的提升。
Mar, 2024
模块化和可组合的迁移学习是参数高效微调领域的新兴方向,它使神经网络能更好地组织各种知识方面,提高跨任务泛化能力;本文介绍了一种新的方法 Customized Polytropon C-Poly,它结合了任务共同技能和任务特定技能,并使用低秩技术对技能参数进行高度参数化;每个任务关联着可定制数量的专属专业技能,并从与同伴任务共享的技能中受益;共同学习了技能分配矩阵;通过在 Super-NaturalInstructions 和 SuperGLUE 基准上进行广泛实验评估,证明了 C-Poly 优于完全共享,任务特定和技能不可区分的基线方法,显著提高了多任务学习场景下的样本效率。
Dec, 2023
在本研究中,我们介绍了 extbf {MT-LoRA}(多任务嵌入 LoRA),这是一个可扩展的多知识 LoRA 融合框架,旨在用于大型语言模型(LLMs)。MT-LoRA 通过混合专家(MoE)的方式将各种 LoRA 适配器集成到基本 LLM 中,使模型能够根据任务输入自动选择最相关的适配器,从而显著增强了 LLM 处理复合任务的能力。我们的评估表明,通过 MT-LoRA 装备的基本模型在解决十个问题的组合任务时,仅需一次推理过程,比单独适配器获得更好的性能,并突出了 MT-LoRA 嵌入 LLMs 中的及时目标切换能力。
May, 2024
本文提出了 Poly-mu 和 Poly-S 两种新的方法,对比了它们与 Polytropon 方法在多个任务学习中的表现,并发现 Poly-S 方法可以在保持参数少量增加的同时,在三个测试数据集上获得了高达 5.3 个点的平均收益。
Nov, 2022
本文介绍了一种新的多任务学习(MTL)模型的参数有效训练框架 MTLoRA,该框架通过使用任务无关和任务特定的低秩适应模块,在 MTL 微调中有效地解离参数空间,从而使模型能够熟练处理 MTL 环境中的任务专业化和交互,并且在 PASCAL 数据集上的广泛实验表明,MTLoRA 在减少可训练参数数量的同时,比对 MTL 模型进行全面微调在下游任务上具有更高的准确性,同时在准确性和效率方面优于当前最先进的参数有效训练方法。
Mar, 2024
提出了一种基于 LoRA 的资源高效稀疏 MoE 模型构建方法,名为 MixLoRA,能够在消费级 GPU 上实现多个专家模型的并行微调,减少了 GPU 内存消耗 41% 和训练过程中的延迟 17%。
Apr, 2024
利用对比学习以鼓励专家学习不同特征的方式,我们介绍了一种新的参数效率微调方法 MoELoRA,它在数学推理和常识推理基准测试中表现显著优于 LoRA 和 GPT-3.5。
Feb, 2024
通过研究不同任务的共享参数模型训练器的可重复使用性,我们调研了如何根据多任务数据构建最佳适配器库,并设计了通过库中的路由进行零样本和监督任务泛化的技术。我们对构建适配器库的现有方法进行了基准测试,并引入了基于模型的聚类方法 MBC,通过间接优化跨多任务数据集的传输来分组任务。为了重复使用该库,我们提出了一种新颖的零样本路由机制 Arrow,它能够动态选择最相关的适配器用于新的输入,无需重新训练。我们在多种大型语言模型(LLMs),如 Phi-2 和 Mistral 上进行了实验,针对大量保留任务验证了基于 MBC 的适配器和 Arrow 路由在新任务的泛化性上的卓越表现。我们迈出了创建模块化、适应性强、能够与传统联合训练不相上下甚至超越的 LLMs 的步伐。
May, 2024