BriefGPT.xyz
Ask
alpha
关键词
natural text-image pairs
搜索结果 - 1
ACL
视觉空间推理
本研究提出 Visual Spatial Reasoning(VSR)数据集,这是包含超过 10k 已标注的英文自然文本图像对和 66 种空间关系的数据集,研究表明当前视觉语言模型只能达到约 70%的准确率,无法识别有关物体朝向的关系。
PDF
2 years ago
Prev
Next