MMDec, 2020

超越言语:测试预训练 V&L 模型在计数任务中的跨模态能力

TL;DR本研究探讨了预训练视觉和语言模型在两个需要多模态集成的任务中的推理能力:(1)区分正确的图像 - 句子对与不正确的对,以及(2)计算图像中的实体。结果显示,预训练的 V&L 模型非常擅长解决任务(1),但无法充分解决任务(2),即计数探针,并不能推广到不同分布的数量。研究为我们提供了一些对这些发现的解释,并建议理解这些模型的推理和基础能力需要更有目的的调查。