SPARE3D:基于三视线绘图的空间推理数据集
本文提出了一个新的大规模 3D 多视图视觉问答基准(3DMV-VQA),介绍了一种基于神经场,2D 预训练的视觉语言模型和神经推理运算符的 3D 概念学习与推理(3D-CLR)框架,并评估了各种最先进的模型,发现它们都表现不佳,提出了从多视图图像中推断出世界的紧凑 3D 表示,并在此基础上执行推理的原则方法,对挑战进行了深入分析并指出了潜在的未来方向。
Mar, 2023
本文提出了一个新的 3D 地面真实数据集,并使用一种新的众包方法来降低数据集偏差,从而有效地预测空间关系,证明了最小对比数据收集的有效性以及其导致样本高效训练。
Dec, 2020
这篇论文介绍了一种基于零样本推理的 3D 分割新任务,以搜索和定位物体的部件为目标,它超越了先前的类别特定 3D 语义分割、3D 实例分割和开放词汇 3D 分割的限制。我们设计了一个简单的基线方法,Reasoning3D,能够理解和执行复杂的命令,对具有上下文感知和推理答案的 3D 网格进行 (细粒度的) 特定部分分割。该方法利用现成的预训练二维分割网络,由大型语言模型 (LLMs) 支持,在零样本的方式下解释用户的输入查询。我们的方法具有泛化性,能够根据隐含的文本查询有效地定位和突出显示 3D 对象的部分,包括这些组成部分的 3D 对象和真实世界的扫描数据。此外,我们的无训练方法可实现快速部署,并成为未来研究中关于部件级 3D (语义) 对象理解的可行通用基线,在包括机器人学、物体操作、部件装配、自动驾驶应用、增强现实和虚拟现实 (AR/VR) 以及医疗应用等各个领域发挥作用。该论文提供了代码、模型权重、部署指南和评估协议。
May, 2024
提出了一种新的任务称为 3D 推理定位,并引入了一个名为 ScanReason 的新基准,该基准提供了来自五种推理类型的超过 10K 个问题 - 答案 - 位置对,需要推理与定位的相互作用,进一步设计了我们的 ReGround3D 方法,由视觉中心推理模块与多模式大型语言模型(MLLM)驱动的 3D 定位模块组成,通过回顾增强几何和细节从 3D 场景中获得准确的对象位置,并提出了一种推理和定位步骤相互交错的推理链机制来进一步提高性能,在所提出的基准上进行了广泛的实验证实了我们提出的方法的有效性。
Jul, 2024
该研究通过 LLM-TPC 框架,利用大型语言模型,解决了 3D 环境中基于自我的观察进行问题回答的挑战,该方法在 SQA3D 基准测试上表现出了有效性、可解释性和鲁棒性。
Apr, 2024
通过引入 3D 感知的视觉问答(3D-aware VQA)任务以及相应的数据集 Super-CLEVR-3D 和模型 PO3D-VQA,本论文探索了在视觉场景的三维结构上进行合成推理的挑战性问题,实验证明 PO3D-VQA 模型在 3D 感知的视觉问答上取得了显著进展,但与 2D 视觉问答基准相比仍存在明显的性能差距,显示出 3D 感知的视觉问答依然是一个重要的开放研究领域。
Oct, 2023
提出了一个新的任务来评估具有情境理解能力的代理人的场景理解:三维情境中的位置问答(SQA3D)。在一个三维场景中,该任务要求被测试代理人首先理解其所处的情境,然后通过对其周围环境进行推理,并在该情境下回答一个问题。建立了一个具有 6.8k 个唯一情境和 33.4k 个问题的数据集,检查了一种智能代理人的推理能力的广泛谱系,包括空间关系理解和常识理解、导航和多跳推理。SQA3D 对当前特别是 3D 推理模型提出了重大挑战。评估各种最先进的方法,并发现最佳方法只达到了 47.20% 的总体得分,而业余人类参与者则可以达到 90.06% 的得分。我们相信 SQA3D 可以促进具有更强的情境理解和推理能力的未来体系结构 AI 研究。
Oct, 2022
本文提出了在 3D 真实世界场景中进行视觉问答任务的 VQA-3D,并介绍了第一个 VQA-3D 数据集 CLEVR3D 和基于 Transformer 架构的 VQA-3D 基准模型 TransVQA3D。实验证明,将 VQA-3D 作为辅助任务可以提高 3D 场景理解的性能。
Dec, 2021
通过对稀少的空间关系的分类来构建 SpatialSense 数据集,该数据集可以提供计算机视觉领域的基准测试,引入敌对性众包来降低数据集偏见并且 samples 更有趣的关系,结果表明现有的先进模型表现出与简单基线相当的性能。
Aug, 2019
当前最先进的大型语言模型(LLMs)在空间推理方面性能较差,但随着模型规模的扩大,在空间推理能力上有了显著提升,Finetuning 大或小型语言模型可以显著提高它们的 F1 分数,专有的 LLMs 在拓扑空间理解和推理方面明显优于开源模型。
Jun, 2024