Sep, 2019

UNITER: 通用图像文本表示学习

TL;DR本研究引入了UNITER,一种通过对四个图像-文本数据集(COCO,Visual Genome,Conceptual Captions和SBU Captions)进行大规模预训练学习的UNiversal image-text representation,其可为异构下游V + L任务提供联合多模态嵌入。