Apr, 2022

视觉空间推理

TL;DR本研究提出Visual Spatial Reasoning(VSR)数据集,这是包含超过10k已标注的英文自然文本图像对和66种空间关系的数据集,研究表明当前视觉语言模型只能达到约70%的准确率,无法识别有关物体朝向的关系。