多任务学习的参数高效模块可定制组合

Dec, 2023

多任务学习的参数高效模块可定制组合

Customizable Combination of Parameter-Efficient Modules for Multi-Task Learning

Haowen Wang, Tao Sun, Cong Fan, Jinjie Gu

TL;DR模块化和可组合的迁移学习是参数高效微调领域的新兴方向，它使神经网络能更好地组织各种知识方面，提高跨任务泛化能力；本文介绍了一种新的方法 Customized Polytropon C-Poly，它结合了任务共同技能和任务特定技能，并使用低秩技术对技能参数进行高度参数化；每个任务关联着可定制数量的专属专业技能，并从与同伴任务共享的技能中受益；共同学习了技能分配矩阵；通过在 Super-NaturalInstructions 和 SuperGLUE 基准上进行广泛实验评估，证明了 C-Poly 优于完全共享，任务特定和技能不可区分的基线方法，显著提高了多任务学习场景下的样本效率。

Abstract

Modular and composable transfer learning is an emerging direction in the field of parameter efficient fine-tuning, as it enables neural networks to better organize various aspects of knowledge, leading to improve

modular transfer learning composable transfer learning parameter efficient fine-tuning customized polytropon c-poly sample efficiency in multi-task learning

发现论文，激发创造

多任务学习中的模块化技能组合

通过模块化设计并学习潜在的离散技能，该研究在多任务强化学习和少样本学习中实现了更高的样本效率和解释性。

Feb, 2022

数据高效调优的多头适配器路由

本文提出了 Poly-mu 和 Poly-S 两种新的方法，对比了它们与 Polytropon 方法在多个任务学习中的表现，并发现 Poly-S 方法可以在保持参数少量增加的同时，在三个测试数据集上获得了高达 5.3 个点的平均收益。

Nov, 2022

基于张量积的专家混合模型

在多任务学习中，我们提出了一种新的模块化语言模型（TensorPoly），它通过精细的路由方法和参数效率平衡来减轻负面干扰，并通过高效的自适应方法在多任务迁移学习中取得更好的结果。

May, 2024

一次参数训练，多任务学习与迁移学习

本文介绍了一种基于小参数集合的深度神经网络迁移学习和多任务学习的新方法，通过调整网络中的特定组件使其适应不同任务，以达到在多个任务中共享参数并且性能表现良好的目的。

Oct, 2018

一个网络，多个掩码：迈向更高效的参数转移学习

本文提出了一种高效的参数共享迁移学习 (PROPETL) 方法，它可以在不同层间和任务间共享单一 PETL 模块，然后使用二进制掩码选择共享的原型网络的不同子网络，并将其应用为 PETL 模块进入不同的网络层中，从而达到大幅减少模型参数及存储的效果。实验证明我们提出的模型在各种下游任务上性能优异，模型参数仅为其他 PETL 方法的约 10%。

May, 2023

评估参数高效微调方法训练的参数矩阵的可移植性

通过使用参数高效微调技术训练的模块，研究探讨了任务特定知识在不同模型之间的可移植性，发现该方法在情感分析等任务上远远优于从头开始训练或从相同分布中采样参数训练的模块。

Jan, 2024

NLP 的参数高效迁移学习

通过适配器模块实现神经网络参数共享，避免针对每个任务都需要重新训练整个神经网络的问题。将适配器模块应用于 BERT Transformer 可以达到接近完全微调的性能，同时每个任务只需增加 3.6％的可训练参数，表现十分出色。

Feb, 2019

共享超网络的 Transformer 多任务微调的参数高效方法

本文提出了一种通过使用共享的超网络生成适配器参数来学习所有层和任务的参数高效的多任务学习框架，从而在跨任务共享知识的同时，通过任务特定的适配器使模型适应每个单独的任务，并在已知的 GLUE 基准测试中实现了多任务学习的改进性能。

Jun, 2021

有条件自适应多任务学习：减少参数和数据来提高自然语言处理的迁移学习能力

通过使用新的 Transformer 架构，包括一种新的条件注意机制以及一组任务条件模块，旨在促进权重共享，我们实现了更有效的参数共享，并通过保持预训练模型的一半权重来缓解遗忘。同时，我们使用了新的多任务数据采样策略来减少任务之间数据不平衡的负面影响。与其他 BERT Large 方法在 GLUE 上相比，我们的八任务模型超过了其他 Adapter 方法 2.8％，而我们的 24 任务模型在使用 MTL 和单任务微调的模型上表现优异。我们还展示了我们的单个多任务模型方法的较大变体在 26 个 NLP 任务中竞争，并在一些测试和开发集上取得了最先进的结果。

Sep, 2020

软模块化的多任务强化学习

通过引入显式的模块化技术和路由网络，将多任务共享的参数进行重新配置，实现了适用于连续任务的软模块化方法，从而大幅提高了机器人操作任务的效率和性能。

Mar, 2020