EMNLPOct, 2023

视觉语言模型中的问题:探究其在空间推理方面的挑战

TL;DR通过创造新的语义理解基准数据集,研究表明近期的视觉 - 语言模型在识别基本空间关系方面表现较差,这是由于常用的数据集如 VQAv2 中缺乏关于学习空间关系的可靠数据来源。