Apr, 2020

VD-BERT: 一个与BERT结合的统一视觉和对话Transformer

TL;DR该研究提出的VD-BERT框架,是一种简单且有效的视觉-对话Transformer编码器,可以通过统一的编码器捕获图像和多回合对话之间的交互,并通过与BERT语言模型的整合实现回答的排名和生成,同时无需预训练外部视觉-语言数据即可获得最新的最高水平。