AAAISep, 2019
图像字幕和 VQA 统一视觉语言预训练
Unified Vision-Language Pre-Training for Image Captioning and VQA
Luowei Zhou, Hamid Palangi, Lei Zhang, Houdong Hu, Jason J. Corso...
TL;DR本文提出了一个统一的视觉语言预训练模型,采用共享的多层 Transformer 网络进行编码和解码,通过两个任务的无监督学习目标对大量的图像文本对进行预训练,使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。