Sep, 2020
有条件自适应多任务学习:减少参数和数据来提高自然语言处理的迁移学习能力
Conditionally Adaptive Multi-Task Learning: Improving Transfer Learning
in NLP Using Fewer Parameters & Less Data
TL;DR通过使用新的Transformer架构,包括一种新的条件注意机制以及一组任务条件模块,旨在促进权重共享,我们实现了更有效的参数共享,并通过保持预训练模型的一半权重来缓解遗忘。同时,我们使用了新的多任务数据采样策略来减少任务之间数据不平衡的负面影响。与其他BERT Large方法在GLUE上相比,我们的八任务模型超过了其他Adapter方法2.8%,而我们的24任务模型在使用MTL和单任务微调的模型上表现优异。我们还展示了我们的单个多任务模型方法的较大变体在26个NLP任务中竞争,并在一些测试和开发集上取得了最先进的结果。