Dec, 2019

视觉对话的大规模预训练:一个简单的最先进基准线

TL;DR本文提出了一种基于 ViLBERT 的方法,该方法采用与 Visual Dialog 相关的视觉语言数据集的预训练,随后转移到 Visual Dialog 的训练上。文中还发现,在 Visual Dialog 中使用密集注释进行微调,可以提高 NDCG,但会降低 MRR。