以对象为中心的视觉推理诊断
本文提出一个框架来单独评估视觉问答(VQA)中的推理方面,同时引入一种新颖的自上而下校准技术,以使模型即使具有不完美的感知也能回答推理问题,通过在具有挑战性的 GQA 数据集上进行深入的分离比较,可以了解到众所周知的 VQA 模型参与的见解以及任务。
Jun, 2020
我们提出了一种新的视觉问答架构,通过常识推理作为监督信号来减轻模型在缺乏视觉基础的情况下的性能不足,并通过相似性损失将模型的视觉注意力引导到场景的重要元素,从而提高模型的视觉感知能力和性能。
Sep, 2023
提出了一种新的任务称为 3D 推理定位,并引入了一个名为 ScanReason 的新基准,该基准提供了来自五种推理类型的超过 10K 个问题 - 答案 - 位置对,需要推理与定位的相互作用,进一步设计了我们的 ReGround3D 方法,由视觉中心推理模块与多模式大型语言模型(MLLM)驱动的 3D 定位模块组成,通过回顾增强几何和细节从 3D 场景中获得准确的对象位置,并提出了一种推理和定位步骤相互交错的推理链机制来进一步提高性能,在所提出的基准上进行了广泛的实验证实了我们提出的方法的有效性。
Jul, 2024
该研究旨在通过模仿人类视觉问题解决中的 “看、记住、推理” 模式,引入基于视觉输入的原理来整合低级视觉能力,使现有的大型语言模型能够在视觉推理问题上取得竞争性表现。
Jun, 2023
本文提出了一种新的推理框架来填补 VQA 任务中视觉特征和语义线索之间的语义鸿沟,实现了特征和谓词的有效联合学习,并在三个大规模数据集上实现了其他最先进方法无法比拟的准确度,同时还提供了一种可解释的方式来理解深度神经网络在预测答案时的决策。
Oct, 2021
通过测试多个以对象为中心的模型的关系学习和泛化能力,我们发现这些模型能够在多种情况下区分场景中的不同对象,但在更困难的任务和条件下仍面临挑战,说明抽象视觉推理仍然是深度神经网络,包括以对象为中心的模型面临的一个难题。
Feb, 2024
通过物体级别的 grounding,在图像中建立了文本描述与图像区域的语义联系,提出了一种新型维度的视觉问答任务,并使用多个基线模型和带有空间注意力机制的 LSTM 模型来解决该任务。
Nov, 2015
本研究探索了通过视觉表征学习来评估对象信息如何被保留,例如它们的空间位置、视觉属性和相对关系,并介绍了一种用于评估视觉表征的协议,重点关注视觉推理的任务,比较了局部特征和面向对象的特征对于视觉推理的影响。
Dec, 2022
利用大规模视觉语言模型评估其在不同视觉推理任务中的性能,特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名,结合物体及其位置的核心语义来计算空间子句的最终评分,并比较不同视觉语言模型在空间关系推理方面的能力。
Aug, 2023
这篇研究报告探讨了视觉和语言推理需要对视觉概念、语义和语言基础以及两种模式之间的相互作用进行感知,并评估了现有的 Vision-and-language 模型对于空间理解的忠实度。研究者提出了两个目标,利用现成的深度估计器,设计了关于三维空间推理的代理任务来训练 Vision-and-language 模型,使得在视觉问答挑战中取得了显著的表现改善。
Sep, 2021