Dec, 2023

BloomVQA:评估层次化多模态理解

TL;DR我们提出了一个新颖的视觉问答(VQA)数据集,基于为教育幼儿而设计的图片故事,旨在通过理解任务对视觉语言模型进行全面评估和特征化。该数据集包含不同层次的理解任务和底层认知过程,可以映射到基于图形的视觉故事表示,实现自动数据增强和模型一致性特征。我们的结果表明,尽管现有模型在低级别理解任务上取得了最大的进步,但在需要更高级理解和认知技能的高级任务上,它们普遍表现不佳,最高级别任务的 VQA 准确度下降了 38.0%。此外,目前的模型在各种情境中与人类理解的一致性模式不匹配,表明模型行为的新出现结构。