ICLRAug, 2019

VL-BERT: 通用视觉语言表示的预训练

TL;DR本研究引入一个新的预可训练的通用视觉语言表示方法 ——Visual-Linguistic BERT,它采用了简单而强大的 Transformer 模型作为骨干网络,并将视觉和语言嵌入特征扩展为输入。通过在大规模的 Conceptual Captions 数据集上进行文本预训练,VL-BERT 可以适配大多数视觉语言下游任务,并在可视化常识推理、视觉问答、指称理解等下游任务中取得了不错的效果。