多视角图像中的三维概念学习和推理
本文提出了在 3D 真实世界场景中进行视觉问答任务的 VQA-3D,并介绍了第一个 VQA-3D 数据集 CLEVR3D 和基于 Transformer 架构的 VQA-3D 基准模型 TransVQA3D。实验证明,将 VQA-3D 作为辅助任务可以提高 3D 场景理解的性能。
Dec, 2021
提出了一种新的任务称为 3D 推理定位,并引入了一个名为 ScanReason 的新基准,该基准提供了来自五种推理类型的超过 10K 个问题 - 答案 - 位置对,需要推理与定位的相互作用,进一步设计了我们的 ReGround3D 方法,由视觉中心推理模块与多模式大型语言模型(MLLM)驱动的 3D 定位模块组成,通过回顾增强几何和细节从 3D 场景中获得准确的对象位置,并提出了一种推理和定位步骤相互交错的推理链机制来进一步提高性能,在所提出的基准上进行了广泛的实验证实了我们提出的方法的有效性。
Jul, 2024
本文提出了一种基于 Transformer 的 3D 问答框架,名为 3DQA-TR,通过利用外观和几何信息对多模态信息进行编码,以实现对于 3D 领域的问答。同时,作者开发了第一个 3DQA 数据集 “ScanQA”,该数据集包含了大约 6K 个问题和 30K 个答案,可用于验证 3DQA-TR 的有效性。实验结果表明该 3DQA 框架优于现有的 VQA 框架且高效设计的效果较好。
Dec, 2021
提出了一种基于知识路线的视觉问题推理 VQA 模型评估数据集,通过控制程序来选择自然场景图和外部知识库中的三元组,强制进行多步推理,并平衡答案分布,以解决现有的 VQA 模型的浅层相关问题和注释程序不均衡的问题。
Dec, 2020
通过引入 3D 感知的视觉问答(3D-aware VQA)任务以及相应的数据集 Super-CLEVR-3D 和模型 PO3D-VQA,本论文探索了在视觉场景的三维结构上进行合成推理的挑战性问题,实验证明 PO3D-VQA 模型在 3D 感知的视觉问答上取得了显著进展,但与 2D 视觉问答基准相比仍存在明显的性能差距,显示出 3D 感知的视觉问答依然是一个重要的开放研究领域。
Oct, 2023
通过扩展多模态大语言模型 (MLLMs) 的感知能力以在三维空间中对图像进行定位和推理,本研究引入了一个名为 Cube-LLM 的新 MLLM,并在 LV3D 数据集上进行预训练,实验表明 Cube-LLM 在整体 MLLM 和特定领域的基准测试中均表现出色,并取得了显著的成果。
May, 2024
该研究旨在通过模仿人类视觉问题解决中的 “看、记住、推理” 模式,引入基于视觉输入的原理来整合低级视觉能力,使现有的大型语言模型能够在视觉推理问题上取得竞争性表现。
Jun, 2023
提出了一个新的任务来评估具有情境理解能力的代理人的场景理解:三维情境中的位置问答(SQA3D)。在一个三维场景中,该任务要求被测试代理人首先理解其所处的情境,然后通过对其周围环境进行推理,并在该情境下回答一个问题。建立了一个具有 6.8k 个唯一情境和 33.4k 个问题的数据集,检查了一种智能代理人的推理能力的广泛谱系,包括空间关系理解和常识理解、导航和多跳推理。SQA3D 对当前特别是 3D 推理模型提出了重大挑战。评估各种最先进的方法,并发现最佳方法只达到了 47.20% 的总体得分,而业余人类参与者则可以达到 90.06% 的得分。我们相信 SQA3D 可以促进具有更强的情境理解和推理能力的未来体系结构 AI 研究。
Oct, 2022
通过条件批量归一化对 CLEVR 视觉推理基准进行训练,我们的方法在人工视觉推理方面实现了最先进的成果,这表明带有适当条件的通用架构可以有效地学习进行视觉推理。
Jul, 2017