EMNLPApr, 2020

VD-BERT: 一个与 BERT 结合的统一视觉和对话 Transformer

TL;DR该研究提出的 VD-BERT 框架,是一种简单且有效的视觉 - 对话 Transformer 编码器,可以通过统一的编码器捕获图像和多回合对话之间的交互,并通过与 BERT 语言模型的整合实现回答的排名和生成,同时无需预训练外部视觉 - 语言数据即可获得最新的最高水平。