视觉问答的弱监督相对空间推理
本研究提出 Visual Spatial Reasoning(VSR)数据集,这是包含超过 10k 已标注的英文自然文本图像对和 66 种空间关系的数据集,研究表明当前视觉语言模型只能达到约 70%的准确率,无法识别有关物体朝向的关系。
Apr, 2022
利用大规模视觉语言模型评估其在不同视觉推理任务中的性能,特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名,结合物体及其位置的核心语义来计算空间子句的最终评分,并比较不同视觉语言模型在空间关系推理方面的能力。
Aug, 2023
通过构建空间关系图并设计两种预训练任务,即目标位置回归和空间关系分类,本研究提出的方法在 VCR、VQA 和 NLVR 三个视觉与语言推理任务中取得了最先进的结果。
Nov, 2023
将大型语言模型(LLM)整合到视觉领域任务中,从而形成视觉 - LLM(V-LLM),在视觉问答(VQA)等视觉语言任务中实现了卓越的性能。通过基于图像坐标的指导微调目标,我们探索了如何为 V-LLM 注入空间意识,包括发现最佳坐标表示、数据效率的指导微调目标和伪数据生成策略。我们的模型在图像和视频领域提升了 VQA 性能,减少了不必要的幻觉,并生成了更好的上下文对象描述。通过涉及 14 个不同数据集的 5 个视觉语言任务的实验,验证了我们提出的框架明显的性能改进。
Apr, 2024
通过在互联网规模的空间推理数据上训练 Visual Language Model(VLM),我们显著增强了其在定量和定性空间 VQA 方面的能力,并实现了链式思维空间推理和机器人学等新颖应用。
Jan, 2024
大型语言模型和视觉 - 语言模型在广泛的任务和领域表现出了显著的优异性能,但空间理解和推理(人类认知的基本组成部分)仍然未得到充分利用。通过开发多方面的空间推理基准,如关系理解、导航和计数,我们对具有竞争力的语言模型和视觉 - 语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点:(1)空间推理带来了重大挑战,竞争模型可能不如随机猜测;(2)尽管有额外的视觉输入,视觉 - 语言模型通常表现不如纯语言模型;(3)当文本和视觉信息都可用时,如果提供足够的文本线索,多模态语言模型对视觉信息的依赖程度降低。此外,我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。
Jun, 2024
通过创造新的语义理解基准数据集,研究表明近期的视觉 - 语言模型在识别基本空间关系方面表现较差,这是由于常用的数据集如 VQAv2 中缺乏关于学习空间关系的可靠数据来源。
Oct, 2023
该研究旨在通过评估不同模型在视觉推理方面的表现来回答视觉问答模型是否在进行视觉推理,为此,研究使用了 GQA 数据集中提供的目标细粒度标注,提出了一种系统性的目标中心的视觉推理诊断方法,并开发了一个名为图形推理机的诊断模型,该模型使用概率场景图替代纯符号视觉表示,并对视觉推理模块进行了教师强制训练。
Dec, 2020
这篇研究报告通过扩展 What'sUp 数据集,提出了一个全面的评估方法用于空间关系理解,并对 27 种不同模型的性能进行了评估,其中包括早期的视觉语言模型(VLMs)和三类多模态语言模型(MLLMs),以验证其在任务中的表现和研究其规模的变化规律。
Jun, 2024
我们提出了一种新的视觉问答架构,通过常识推理作为监督信号来减轻模型在缺乏视觉基础的情况下的性能不足,并通过相似性损失将模型的视觉注意力引导到场景的重要元素,从而提高模型的视觉感知能力和性能。
Sep, 2023