基于张量积的专家混合模型

May, 2024

Mixture of Experts Using Tensor Products

Zhan Su, Fengran Mo, Prayag Tiwari, Benyou Wang, Jian-Yun Nie...

TL;DR在多任务学习中，我们提出了一种新的模块化语言模型（TensorPoly），它通过精细的路由方法和参数效率平衡来减轻负面干扰，并通过高效的自适应方法在多任务迁移学习中取得更好的结果。

Abstract

In multi-task learning, the conventional approach involves training a model on multiple tasks simultaneously. However, the training signals from different tasks can interfere with one another, potentially leading to \textit{negative transfer}. To mitigate this, we investigate if

multi-task learning modular language models negative transfer parameter efficiency routing functions

发现论文，激发创造

MultiLoRA: 提升多任务学习效果的 LoRA 民主化

提出了 MultiLoRA，通过减少 LoRA 中观察到的顶层奇异向量的主导性，通过水平扩展 LoRA 模块和改变适应矩阵的参数初始化来减少参数依赖性，从而产生更平衡的单元子空间，从而实现更好的多任务适应性。MultiLoRA 在多个基准和模型规模上优于单个 LoRA 对应项和微调，仅需额外 2.5％的参数。对 MultiLoRA 的权重更新矩阵进行进一步研究表明，其对顶层奇异向量的依赖性减小，单元变换贡献更加均衡。

Nov, 2023

基于矩阵变换的低秩适应（MTLoRA）：一种启发式的参数高效微调方法

该论文介绍了一种基于大规模预训练语言模型 (LPLMs) 的微调技术，通过矩阵变换的重新参数化方法 (MTLoRA) 在下游任务中提高模型性能，取得了显著的提升。

Mar, 2024

多任务学习的参数高效模块可定制组合

模块化和可组合的迁移学习是参数高效微调领域的新兴方向，它使神经网络能更好地组织各种知识方面，提高跨任务泛化能力；本文介绍了一种新的方法 Customized Polytropon C-Poly，它结合了任务共同技能和任务特定技能，并使用低秩技术对技能参数进行高度参数化；每个任务关联着可定制数量的专属专业技能，并从与同伴任务共享的技能中受益；共同学习了技能分配矩阵；通过在 Super-NaturalInstructions 和 SuperGLUE 基准上进行广泛实验评估，证明了 C-Poly 优于完全共享，任务特定和技能不可区分的基线方法，显著提高了多任务学习场景下的样本效率。

Dec, 2023

MeteoRA: 用于大型语言模型的嵌入式 LoRA 多任务系统

在本研究中，我们介绍了 extbf {MT-LoRA}（多任务嵌入 LoRA），这是一个可扩展的多知识 LoRA 融合框架，旨在用于大型语言模型（LLMs）。MT-LoRA 通过混合专家（MoE）的方式将各种 LoRA 适配器集成到基本 LLM 中，使模型能够根据任务输入自动选择最相关的适配器，从而显著增强了 LLM 处理复合任务的能力。我们的评估表明，通过 MT-LoRA 装备的基本模型在解决十个问题的组合任务时，仅需一次推理过程，比单独适配器获得更好的性能，并突出了 MT-LoRA 嵌入 LLMs 中的及时目标切换能力。

May, 2024

软模块化的多任务强化学习

通过引入显式的模块化技术和路由网络，将多任务共享的参数进行重新配置，实现了适用于连续任务的软模块化方法，从而大幅提高了机器人操作任务的效率和性能。

Mar, 2020

数据高效调优的多头适配器路由

本文提出了 Poly-mu 和 Poly-S 两种新的方法，对比了它们与 Polytropon 方法在多个任务学习中的表现，并发现 Poly-S 方法可以在保持参数少量增加的同时，在三个测试数据集上获得了高达 5.3 个点的平均收益。

Nov, 2022

MTLoRA：一种用于高效多任务学习的低秩适应方法

本文介绍了一种新的多任务学习（MTL）模型的参数有效训练框架 MTLoRA，该框架通过使用任务无关和任务特定的低秩适应模块，在 MTL 微调中有效地解离参数空间，从而使模型能够熟练处理 MTL 环境中的任务专业化和交互，并且在 PASCAL 数据集上的广泛实验表明，MTLoRA 在减少可训练参数数量的同时，比对 MTL 模型进行全面微调在下游任务上具有更高的准确性，同时在准确性和效率方面优于当前最先进的参数有效训练方法。

Mar, 2024

MixLoRA：基于 LoRA 的专家混合大语言模型微调增强

提出了一种基于 LoRA 的资源高效稀疏 MoE 模型构建方法，名为 MixLoRA，能够在消费级 GPU 上实现多个专家模型的并行微调，减少了 GPU 内存消耗 41% 和训练过程中的延迟 17%。

Apr, 2024

MoELoRA: 基于对比学习引导的专家混合模型在大型语言模型的参数高效微调中的应用

利用对比学习以鼓励专家学习不同特征的方式，我们介绍了一种新的参数效率微调方法 MoELoRA，它在数学推理和常识推理基准测试中表现显著优于 LoRA 和 GPT-3.5。

Feb, 2024

构建和重用 LoRAs 库以实现模块化 LLMs

通过研究不同任务的共享参数模型训练器的可重复使用性，我们调研了如何根据多任务数据构建最佳适配器库，并设计了通过库中的路由进行零样本和监督任务泛化的技术。我们对构建适配器库的现有方法进行了基准测试，并引入了基于模型的聚类方法 MBC，通过间接优化跨多任务数据集的传输来分组任务。为了重复使用该库，我们提出了一种新颖的零样本路由机制 Arrow，它能够动态选择最相关的适配器用于新的输入，无需重新训练。我们在多种大型语言模型（LLMs），如 Phi-2 和 Mistral 上进行了实验，针对大量保留任务验证了基于 MBC 的适配器和 Arrow 路由在新任务的泛化性上的卓越表现。我们迈出了创建模块化、适应性强、能够与传统联合训练不相上下甚至超越的 LLMs 的步伐。

May, 2024