多模态视觉语言模型中的基于实体的视觉空间推理
这篇研究报告探讨了视觉和语言推理需要对视觉概念、语义和语言基础以及两种模式之间的相互作用进行感知,并评估了现有的 Vision-and-language 模型对于空间理解的忠实度。研究者提出了两个目标,利用现成的深度估计器,设计了关于三维空间推理的代理任务来训练 Vision-and-language 模型,使得在视觉问答挑战中取得了显著的表现改善。
Sep, 2021
本研究提出Visual Spatial Reasoning(VSR)数据集,这是包含超过10k已标注的英文自然文本图像对和66种空间关系的数据集,研究表明当前视觉语言模型只能达到约70%的准确率,无法识别有关物体朝向的关系。
Apr, 2022
通过创造新的语义理解基准数据集,研究表明近期的视觉-语言模型在识别基本空间关系方面表现较差,这是由于常用的数据集如VQAv2中缺乏关于学习空间关系的可靠数据来源。
Oct, 2023
通过在互联网规模的空间推理数据上训练Visual Language Model(VLM),我们显著增强了其在定量和定性空间VQA方面的能力,并实现了链式思维空间推理和机器人学等新颖应用。
Jan, 2024
文中通过提供对象的显式位置信息并进行适当训练,展示出仅文本的语言模型(Language Models)可以学习到类似“左侧”或“下方”等空间关系。通过对视觉空间推理(Visual Spatial Reasoning)数据集的一个口语化版本进行实验,其中图像与包含真实或虚假空间关系的文本语句相配对。作者使用现有的物体检测器给图像增添了位置标记,以文本形式表示每个物体的边界框。尽管视觉空间推理数据集较小,但使用位置信息并无明显改进,然而,通过在由作者衍生的合成数据集上进行预训练,使用位置标记的结果显著改善。作者因此展示了位置信息使语言模型能够对空间关系进行基础性的理解,仅文本的语言模型表现优于视觉与语言模型,成为视觉空间推理数据集的最新技术成果。作者的分析显示,仅文本的语言模型在一定程度上能够推广到合成数据集中未出现的关系,并且还学习了比我们用来创建合成数据集的空间规则中所编码的更有用的信息。
Mar, 2024
通过数据处理和深度信息集成,Spatial Region GPT(SpatialRGPT)提升了Vision Language Models(VLMs)的空间感知和推理能力,并且在空间推理任务中显著提高了性能。
Jun, 2024
基于TopViewRS数据集,评估了代表性的开源和闭源可见语言模型在不同复杂度的感知和推理任务上的表现,并发现其性能明显低于人类平均水平,强调了提升模型在地理空间推理方面的能力的迫切需求,并为进一步研究出路提供了基础。
Jun, 2024
这篇研究报告通过扩展What'sUp数据集,提出了一个全面的评估方法用于空间关系理解,并对27种不同模型的性能进行了评估,其中包括早期的视觉语言模型(VLMs)和三类多模态语言模型(MLLMs),以验证其在任务中的表现和研究其规模的变化规律。
Jun, 2024
大型语言模型和视觉-语言模型在广泛的任务和领域表现出了显著的优异性能,但空间理解和推理(人类认知的基本组成部分)仍然未得到充分利用。通过开发多方面的空间推理基准,如关系理解、导航和计数,我们对具有竞争力的语言模型和视觉-语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点:(1)空间推理带来了重大挑战,竞争模型可能不如随机猜测;(2)尽管有额外的视觉输入,视觉-语言模型通常表现不如纯语言模型;(3)当文本和视觉信息都可用时,如果提供足够的文本线索,多模态语言模型对视觉信息的依赖程度降低。此外,我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。
Jun, 2024
本研究解决了当前视觉语言模型在定量空间推理方面的不足,尤其是关于物体大小和距离的推理能力。通过引入一个手动注释的基准Q-Spatial Bench,研究发现某些视觉语言模型在有参考对象的情况下能显著提升推理成功率,并开发了一个名为SpatialPrompt的零样本提示技术,进一步提高了模型的定量空间推理性能,无需额外的数据或模型调整。
Sep, 2024