Aug, 2019

Unicoder-VL: 一个视觉语言通用编码器,通过交叉模态预训练实现

TL;DR通过联合学习视觉和语言的表示,Unicoder-VL提供了一个通用编码器,采用多任务交叉训练,包括掩码语言建模,掩码对象分类和视觉语言匹配等。在大规模图像字幕预训练之后,Unicoder-VL可用于基于字幕的图像文本检索和视觉常识推理,取得了领先或可比的结果,展示了交叉模态预训练的强大能力。