ECCVSep, 2019

UNITER: 通用图像文本表示学习

TL;DR本研究引入了 UNITER,一种通过对四个图像 - 文本数据集(COCO,Visual Genome,Conceptual Captions 和 SBU Captions)进行大规模预训练学习的 UNiversal image-text representation,其可为异构下游 V + L 任务提供联合多模态嵌入。