EMNLPOct, 2022

视觉和语言变换器是否学习了基于谓词和名词的依赖关系?

TL;DR本文研究视觉 - 语言建模,通过创建新的多模态任务和分析预训练数据的质量,发现预训练数据的质量和多模态预训练目标对模型的性能影响重要。