Aug, 2019
Unicoder-VL: 一个视觉语言通用编码器,通过交叉模态预训练实现
Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal
Pre-training
TL;DR通过联合学习视觉和语言的表示,Unicoder-VL提供了一个通用编码器,采用多任务交叉训练,包括掩码语言建模,掩码对象分类和视觉语言匹配等。在大规模图像字幕预训练之后,Unicoder-VL可用于基于字幕的图像文本检索和视觉常识推理,取得了领先或可比的结果,展示了交叉模态预训练的强大能力。