AAAISep, 2019

图像字幕和 VQA 统一视觉语言预训练

TL;DR本文提出了一个统一的视觉语言预训练模型,采用共享的多层 Transformer 网络进行编码和解码,通过两个任务的无监督学习目标对大量的图像文本对进行预训练,使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。