Nov, 2021

UFO: 一种用于视觉和语言表示学习的统一 Transformer

TL;DR本论文提出了一种统一的变换器(UFO),以处理单模态或多模态输入,进行视觉 - 语言表示学习。 我们使用单个变压器网络并在 VL 预训练期间强制进行多任务学习,包括基于双向和 seq2seq 注意掩码的图像文本对比损失,图像文本匹配损失和遮蔽语言建模损失。 我们在诸如视觉问答,COCO 图像字幕(交叉熵优化)和 nocaps(在 SPICE 中)之类的其他下游任务中,实现了新的技术水平。