GSR-BENCH: 通过多模态的 LLM 评估接地式空间推理的基准
利用大规模视觉语言模型评估其在不同视觉推理任务中的性能,特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名,结合物体及其位置的核心语义来计算空间子句的最终评分,并比较不同视觉语言模型在空间关系推理方面的能力。
Aug, 2023
我们提出了一个新的基准评估语言模型中的定性空间推理,该基准建立在逼真的三维仿真数据上,提供了一系列具有多样化房间布局、不同对象及其空间关系的详细和富有背景的叙述。我们的基准评估了先进的语言模型在空间推理方面的优势和局限性,发现它们在多跳空间推理和解释混合视角描述方面存在困难,并指出了未来改进的方向。
May, 2024
大型语言模型和视觉 - 语言模型在广泛的任务和领域表现出了显著的优异性能,但空间理解和推理(人类认知的基本组成部分)仍然未得到充分利用。通过开发多方面的空间推理基准,如关系理解、导航和计数,我们对具有竞争力的语言模型和视觉 - 语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点:(1)空间推理带来了重大挑战,竞争模型可能不如随机猜测;(2)尽管有额外的视觉输入,视觉 - 语言模型通常表现不如纯语言模型;(3)当文本和视觉信息都可用时,如果提供足够的文本线索,多模态语言模型对视觉信息的依赖程度降低。此外,我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。
Jun, 2024
通过数据处理和深度信息集成,Spatial Region GPT (SpatialRGPT) 提升了 Vision Language Models (VLMs) 的空间感知和推理能力,并且在空间推理任务中显著提高了性能。
Jun, 2024
本研究提出 Visual Spatial Reasoning(VSR)数据集,这是包含超过 10k 已标注的英文自然文本图像对和 66 种空间关系的数据集,研究表明当前视觉语言模型只能达到约 70%的准确率,无法识别有关物体朝向的关系。
Apr, 2022
近期大型视觉 - 语言模型(LVLMs)的快速发展表明它们在具体任务中的潜力,然而,目前的 LVLMs 在具体环境中的空间理解能力尚未得到充分评估,这使得当前 LVLMs 与合格的具体智能之间存在未知差距。为此,我们构建了 EmbSpatial-Bench,这是一个用于评估 LVLMs 具体空间理解能力的基准测试。该基准测试是从具体场景自动衍生而来的,涵盖了从个体视角出发的 6 种空间关系。实验证明了研究结果,即当前的 LVLMs(甚至包括 GPT-4V)的容量不足,我们进一步提出了 EmbSpatial-SFT,这是一个旨在提高 LVLMs 具体空间理解能力的指导调优数据集。
Jun, 2024
通过在互联网规模的空间推理数据上训练 Visual Language Model(VLM),我们显著增强了其在定量和定性空间 VQA 方面的能力,并实现了链式思维空间推理和机器人学等新颖应用。
Jan, 2024
通过引入多图像关系基准(MIRB),我们评估了视觉语言模型(VLMs)在比较、分析和推理多个图像时的能力,并发现开源 VLMs 在单图像任务中接近 GPT-4V 的性能,但在多图像推理任务中存在显著的性能差距。我们的发现表明,即使是最先进的 GPT-4V 模型在我们的基准测试中也存在困难,强调了该领域进一步研究和开发的必要性。我们相信我们的 MIRB 可以作为开发下一代多模态模型的测试平台。
Jun, 2024
这篇研究报告探讨了视觉和语言推理需要对视觉概念、语义和语言基础以及两种模式之间的相互作用进行感知,并评估了现有的 Vision-and-language 模型对于空间理解的忠实度。研究者提出了两个目标,利用现成的深度估计器,设计了关于三维空间推理的代理任务来训练 Vision-and-language 模型,使得在视觉问答挑战中取得了显著的表现改善。
Sep, 2021
将大型语言模型(LLM)整合到视觉领域任务中,从而形成视觉 - LLM(V-LLM),在视觉问答(VQA)等视觉语言任务中实现了卓越的性能。通过基于图像坐标的指导微调目标,我们探索了如何为 V-LLM 注入空间意识,包括发现最佳坐标表示、数据效率的指导微调目标和伪数据生成策略。我们的模型在图像和视频领域提升了 VQA 性能,减少了不必要的幻觉,并生成了更好的上下文对象描述。通过涉及 14 个不同数据集的 5 个视觉语言任务的实验,验证了我们提出的框架明显的性能改进。
Apr, 2024