ICLRSep, 2020

有条件自适应多任务学习:减少参数和数据来提高自然语言处理的迁移学习能力

TL;DR通过使用新的 Transformer 架构,包括一种新的条件注意机制以及一组任务条件模块,旨在促进权重共享,我们实现了更有效的参数共享,并通过保持预训练模型的一半权重来缓解遗忘。同时,我们使用了新的多任务数据采样策略来减少任务之间数据不平衡的负面影响。与其他 BERT Large 方法在 GLUE 上相比,我们的八任务模型超过了其他 Adapter 方法 2.8%,而我们的 24 任务模型在使用 MTL 和单任务微调的模型上表现优异。我们还展示了我们的单个多任务模型方法的较大变体在 26 个 NLP 任务中竞争,并在一些测试和开发集上取得了最先进的结果。