Dec, 2019

视觉对话的大规模预训练: 一个简单的最先进基准线

TL;DR本文提出了一种基于ViLBERT的方法,该方法采用与Visual Dialog相关的视觉语言数据集的预训练,随后转移到Visual Dialog的训练上。文中还发现,在Visual Dialog中使用密集注释进行微调,可以提高NDCG,但会降低MRR。