Jun, 2021
E2E-VLP: 结合视觉学习的端到端视觉-语言预训练
E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual
Learning
TL;DR本文提出了一种用于视觉和语言理解与生成的端到端的视觉-语言预训练模型 E2E-VLP,其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐,同时通过将目标检测和图像字幕生成任务整合到预训练中,采用统一的编码-解码结构增强了视觉学习。在广泛的视觉-语言相关下游任务中进行的一系列实验表明了该新 VLP 模型的有效性。