视觉空间推理
利用大规模视觉语言模型评估其在不同视觉推理任务中的性能,特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名,结合物体及其位置的核心语义来计算空间子句的最终评分,并比较不同视觉语言模型在空间关系推理方面的能力。
Aug, 2023
这篇研究报告探讨了视觉和语言推理需要对视觉概念、语义和语言基础以及两种模式之间的相互作用进行感知,并评估了现有的 Vision-and-language 模型对于空间理解的忠实度。研究者提出了两个目标,利用现成的深度估计器,设计了关于三维空间推理的代理任务来训练 Vision-and-language 模型,使得在视觉问答挑战中取得了显著的表现改善。
Sep, 2021
通过构建空间关系图并设计两种预训练任务,即目标位置回归和空间关系分类,本研究提出的方法在 VCR、VQA 和 NLVR 三个视觉与语言推理任务中取得了最先进的结果。
Nov, 2023
大型语言模型和视觉 - 语言模型在广泛的任务和领域表现出了显著的优异性能,但空间理解和推理(人类认知的基本组成部分)仍然未得到充分利用。通过开发多方面的空间推理基准,如关系理解、导航和计数,我们对具有竞争力的语言模型和视觉 - 语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点:(1)空间推理带来了重大挑战,竞争模型可能不如随机猜测;(2)尽管有额外的视觉输入,视觉 - 语言模型通常表现不如纯语言模型;(3)当文本和视觉信息都可用时,如果提供足够的文本线索,多模态语言模型对视觉信息的依赖程度降低。此外,我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。
Jun, 2024
通过在互联网规模的空间推理数据上训练 Visual Language Model(VLM),我们显著增强了其在定量和定性空间 VQA 方面的能力,并实现了链式思维空间推理和机器人学等新颖应用。
Jan, 2024
文中通过提供对象的显式位置信息并进行适当训练,展示出仅文本的语言模型(Language Models)可以学习到类似 “左侧” 或 “下方” 等空间关系。通过对视觉空间推理(Visual Spatial Reasoning)数据集的一个口语化版本进行实验,其中图像与包含真实或虚假空间关系的文本语句相配对。作者使用现有的物体检测器给图像增添了位置标记,以文本形式表示每个物体的边界框。尽管视觉空间推理数据集较小,但使用位置信息并无明显改进,然而,通过在由作者衍生的合成数据集上进行预训练,使用位置标记的结果显著改善。作者因此展示了位置信息使语言模型能够对空间关系进行基础性的理解,仅文本的语言模型表现优于视觉与语言模型,成为视觉空间推理数据集的最新技术成果。作者的分析显示,仅文本的语言模型在一定程度上能够推广到合成数据集中未出现的关系,并且还学习了比我们用来创建合成数据集的空间规则中所编码的更有用的信息。
Mar, 2024
基于 TopViewRS 数据集,评估了代表性的开源和闭源可见语言模型在不同复杂度的感知和推理任务上的表现,并发现其性能明显低于人类平均水平,强调了提升模型在地理空间推理方面的能力的迫切需求,并为进一步研究出路提供了基础。
Jun, 2024
这篇研究报告通过扩展 What'sUp 数据集,提出了一个全面的评估方法用于空间关系理解,并对 27 种不同模型的性能进行了评估,其中包括早期的视觉语言模型(VLMs)和三类多模态语言模型(MLLMs),以验证其在任务中的表现和研究其规模的变化规律。
Jun, 2024
通过创造新的语义理解基准数据集,研究表明近期的视觉 - 语言模型在识别基本空间关系方面表现较差,这是由于常用的数据集如 VQAv2 中缺乏关于学习空间关系的可靠数据来源。
Oct, 2023
本文研究基于大规模文本到图像合成 (T2I),研究其中的空间理解能力,并提出了一个评估指标 VISOR,并引入一个大规模的数据集 SR2D 以及自动化评估管道,对 T2I 模型进行了大规模实验,发现其在多对象和空间关系生成方面存在严重限制和偏差,并提供了数据集和评估指标以支持 T2I 空间推理研究。
Dec, 2022