ExT5：面向转移学习的极限多任务扩展

ICLRNov, 2021

ExT5：面向转移学习的极限多任务扩展

ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning

Vamsi Aribandi, Yi Tay, Tal Schuster, Jinfeng Rao, Huaixiu Steven Zheng...

TL;DR本文通过 ExMix 集合超过 107 个具有不同领域和任务族的监督自然语言处理任务，进行了 NLP 任务数量的缩放对模型多任务预训练效果的系统研究，并分析了任务家族间的共同训练迁移。其中，本文证明了手动筛选多任务预训练理想任务集并不容易，而多任务缩放本身可以大幅改进模型性能；同时，本文还提出 ExT5，通过超过 107 个 NLP 任务的多任务自监督 span 去噪和 ExMix 的监督多任务目标进行预训练，证明了 ExT5 在 SuperGLUE、GEM、Rainbow、闭卷 QA 任务和一些 ExMix 任务之外的任务上均优于强基线模型 T5，并显著提高了预训练的样本效率。

Abstract

Despite the recent success of multi-task learning and transfer learning for natural language processing (nlp), few works have systematical

multi-task learning transfer learning pre-training exmix nlp

发现论文，激发创造

XTREME: 用于评估跨语言通用化的大规模多语言多任务基准数据集

该论文介绍了一个名为 XTREME 的跨语言多任务基准测试，它可以在 40 种语言和 9 个任务上评估多语言表示的跨语言泛化能力，研究表明，跨语言模型在句法和句子检索任务上的性能仍有相当大的差距，该基准测试旨在促进跨语言学习方法的研究。

Mar, 2020

使用任务级别 Mixture-of-Experts 挖掘和理解跨任务技能

本文介绍了一种针对 NLP 任务的基于任务级别的专家混合模型，该模型使用一组具有灵活性的 Transformer 层和一个路由组件进行任务分配，其表现优于传统的多任务学习模型，同时也发现保留人类任务分类方法对提高模型性能有一定帮助。

May, 2022

任务指南针：任务前缀下的多任务预训练扩展

文章提出了一种基于任务前缀引导的多任务预训练框架，通过任务感知的注释数据作为监督信号，以帮助大规模无标签数据的自我监督学习，并利用它来探索任务之间的关系，并在 40 个数据集上进行了实验，在通用常识推理排行榜上实现了人类水平的结果。

Oct, 2022

XtremeDistilTransformers：任务无关蒸馏中的任务转移

本文提出了一种任务不可知的知识蒸馏框架 ——XtremeDistilTransformers，利用任务特定方法学习出一个通用模型，可以应用于任意语言和任务，并研究了蒸馏过程中多个源任务、扩充资源和模型架构的可迁移性。在多项任务中验证了该模型的性能，并发布了三个蒸馏的任务不可知检查点，其中最小的检查点包含 1300 万个参数，实现了多项任务的 SOTA 表现。

Jun, 2021

用于科学文献理解的预训练多任务对比学习模型

本文提出了一种多任务对比学习框架（SciMult），采用任务感知分化技术和指令调整技术，在多种科学文献的理解任务中优于现有科学语言模型。

May, 2023

T5 模型在自然语言推理中的跨任务迁移学习

本研究比较了顺序微调和多任务学习模型在两个相关任务上性能提升的情况，并在 FigLang2022 整合任务上测试了这些模型。结果表明，顺序微调在交叉任务知识转移方面表现优异，甚至达到最高得分。

Oct, 2022

预训练数据混合提高 Transformer 模型选择能力

在这项研究中，我们研究了 Transformer 模型，特别是大型语言模型（LLMs），它们具有在上下文中学习的显著能力，即在未见过的输入 - 输出示例的提示下执行新任务，而无需任何显式的模型训练。我们的实证结果显示变压器在选择无监督模型和在上下文中学习不同任务家族方面表现出近乎最优的能力，但当面对超出预训练数据领域的任务或功能时，我们展示了变压器的各种失败模式和其泛化能力的退化，即使是简单的外推任务也是如此。总的来说，我们的结果强调了高容量序列模型令人印象深刻的上下文学习能力可能与其预训练数据组合的覆盖范围更紧密相关，而不是创造基本泛化能力的归纳偏差。

Nov, 2023

muNet: 将预训练的深度神经网络进化为可扩展的自动调整多任务系统

采用预训练深度神经网络层作为基块构建多任务学习系统，通过动态选择相关的先验知识、模型参数和超参数进行自动调优，控制模型规模实现高质量模型与较小的规模之间的权衡，并在 10 个多样化的图像分类任务中，相对于标准调优，提高了平均精度 2.39％而使用了每个任务 47％以上的参数。

May, 2022

中间任务训练提高零样本跨语言迁移能力

本研究主要研究在非英语任务上英语中间任务训练（Intermediate-task training）是否有助于跨语言理解学习迁移，通过在 XTREME 基准测试上得到大幅度的改进，我们的最佳模型超过了 XLM-R Large，成为 2020 年 6 月的最新技术水平，并对多语言 MLM 和机器翻译的中间任务数据进行了探讨。

May, 2020

Hyper-X: 一个统一的超网络，用于多任务多语种转移

本文提出 Hyper-X 模型，它将多任务和多语言学习相结合，并通过适应性生成适配器模块的权重，通过学习结合任务和语言特定的知识，实现对未出现的语言和任务 - 语言组合的零样本迁移，并在新语言的少样本情况下始终产生强大的结果。

May, 2022