Dec, 2019
12 合 1:多任务视觉和语言表示学习
12-in-1: Multi-Task Vision and Language Representation Learning
Jiasen Lu, Vedanuj Goswami, Marcus Rohrbach, Devi Parikh, Stefan Lee
TL;DR本篇文章通过开发一个大规模、多任务训练体系,研究了不同任务之间的相互关系,提出了一个单一模型,可以在视觉问题回答、基于标题的图像检索、引用表达和多模态验证等四个广泛的任务范畴下,同时取得以往 3 亿多参数内单一任务模型的总和,且性能提高了 2.05 个百分点,并进一步表明,从单一多任务模型微调任务特定模型会进一步提高性能。