Sep, 2024

参考对象的推理路径促进大型视觉语言模型的定量空间推理

TL;DR本研究解决了当前视觉语言模型在定量空间推理方面的不足,尤其是关于物体大小和距离的推理能力。通过引入一个手动注释的基准Q-Spatial Bench,研究发现某些视觉语言模型在有参考对象的情况下能显著提升推理成功率,并开发了一个名为SpatialPrompt的零样本提示技术,进一步提高了模型的定量空间推理性能,无需额外的数据或模型调整。