有条件自适应多任务学习：减少参数和数据来提高自然语言处理的迁移学习能力

Sep, 2020

有条件自适应多任务学习：减少参数和数据来提高自然语言处理的迁移学习能力

Conditionally Adaptive Multi-Task Learning: Improving Transfer Learning in NLP Using Fewer Parameters & Less Data

Jonathan Pilault, Amine Elhattami, Christopher Pal

TL;DR通过使用新的Transformer架构，包括一种新的条件注意机制以及一组任务条件模块，旨在促进权重共享，我们实现了更有效的参数共享，并通过保持预训练模型的一半权重来缓解遗忘。同时，我们使用了新的多任务数据采样策略来减少任务之间数据不平衡的负面影响。与其他BERT Large方法在GLUE上相比，我们的八任务模型超过了其他Adapter方法2.8％，而我们的24任务模型在使用MTL和单任务微调的模型上表现优异。我们还展示了我们的单个多任务模型方法的较大变体在26个NLP任务中竞争，并在一些测试和开发集上取得了最先进的结果。

Abstract

multi-task learning (MTL) has emerged as a promising approach for transferring learned knowledge across different tasks. However, multi-task learning must deal with challenges such as: overfitting to low resource

发现论文，激发创造

AdapterFusion: 非破坏性任务组合用于迁移学习

AdapterFusion是一种新型的学习算法，通过两阶段的任务学习过程实现了多任务学习与知识融合，并且可以有效地利用来自多项任务的知识表示，从而优于传统的全局微调和多任务学习方法。

May, 2020

2020年代自然语言处理的多任务学习：我们将走向何方？

本文主要综述了自然语言处理领域中最近的多任务学习(MTL)的研究进展，重点关注深度学习、迁移学习和预训练等相关方向的最新成果及所面临的挑战。

Jul, 2020

Diff剪枝实现参数高效的迁移学习

提出一种在预训练-微调框架下进行参数有效转移学习的简单方法 - 差分裁剪（diff pruning），它将微调视为学习一种针对特定任务的“diff vector”，该向量附加在预训练的参数向量之上。通过将不同iable逼近L0-norm 惩罚来自适应地修剪diff向量以鼓励稀疏性，从而在学习时适应地进行修剪，从而在与完全微调的基准模型相比性能匹配，并且每项任务仅修改预训练模型参数的0.5%。

Dec, 2020

自然语言处理中的多任务学习: 概述

本文综述了多任务学习在自然语言处理领域的应用。在介绍多任务学习的架构和优化方法后，着重讨论了在多个自然语言处理任务上的表现，最后探讨了相关研究方向。

Sep, 2021

使用多任务学习还是中间微调进行预训练编码器转移学习的决策

本文研究比较了三种自然语言处理中的迁移学习方法，即STILTs、MTL以及MTL-ALL的表现。结果显示，MTL-ALL的性能不如其他两种方法，而在目标任务比较少的情况下，性能较好的是采用pairwise MTL方法。

May, 2022

T5模型在自然语言推理中的跨任务迁移学习

本研究比较了顺序微调和多任务学习模型在两个相关任务上性能提升的情况，并在 FigLang2022 整合任务上测试了这些模型。结果表明，顺序微调在交叉任务知识转移方面表现优异，甚至达到最高得分。

Oct, 2022

持续学习自然语言新任务中预防灾难性遗忘

该论文提出了一种基于知识蒸馏的增量学习方法，利用未标记数据避免灾难性遗忘，该方法在公开基准测试中表现出显著的效果，能够保存已获取的知识，并对增量添加的任务获得良好的性能。

Feb, 2023

多任务提示调整实现参数效率转移学习

我们提出了多任务提示调整（MPT）方法，该方法通过从多个特定于任务的源提示中提取知识来首先学习一个单一可传输的提示，然后学习该共享提示的乘性低秩更新，以高效地将其适应每个下游目标任务。在23个自然语言处理数据集上进行的广泛实验表明，我们的方法在某些情况下优于最先进的方法，包括完全微调基线方法，尽管只有0.035％的特定于任务的参数被调整。

Mar, 2023

自然语言处理中使用基于Transformer的多任务学习的挑战与机遇：一项调研

机器学习模型处理自然语言处理（NLP）中的多任务学习（MTL）及持续学习（CL）的挑战、机会和应用，以及对基于Transformer的MTL架构的系统分析。

Aug, 2023

逐层揭示指令调优的大型语言模型中的多任务学习发生位置

本研究解决了预训练大型语言模型在多任务学习中保持任务特定知识的程度与位置尚未明确的问题。通过矩阵分析工具，本研究发现指令调优显著影响模型的任务表示，并识别了模型从高层次通用表示转向更具任务导向表示的具体层次。这一发现丰富了我们对大型语言模型机制的理解，并为参数高效转移学习和多任务学习的未来研究奠定了基础。

Oct, 2024