ScanQA: 三维问题回答用于空间场景理解
本文提出了一种基于 Transformer 的 3D 问答框架,名为 3DQA-TR,通过利用外观和几何信息对多模态信息进行编码,以实现对于 3D 领域的问答。同时,作者开发了第一个 3DQA 数据集 “ScanQA”,该数据集包含了大约 6K 个问题和 30K 个答案,可用于验证 3DQA-TR 的有效性。实验结果表明该 3DQA 框架优于现有的 VQA 框架且高效设计的效果较好。
Dec, 2021
提出了一个新的任务来评估具有情境理解能力的代理人的场景理解:三维情境中的位置问答(SQA3D)。在一个三维场景中,该任务要求被测试代理人首先理解其所处的情境,然后通过对其周围环境进行推理,并在该情境下回答一个问题。建立了一个具有 6.8k 个唯一情境和 33.4k 个问题的数据集,检查了一种智能代理人的推理能力的广泛谱系,包括空间关系理解和常识理解、导航和多跳推理。SQA3D 对当前特别是 3D 推理模型提出了重大挑战。评估各种最先进的方法,并发现最佳方法只达到了 47.20% 的总体得分,而业余人类参与者则可以达到 90.06% 的得分。我们相信 SQA3D 可以促进具有更强的情境理解和推理能力的未来体系结构 AI 研究。
Oct, 2022
在 3D 视觉语言的年轻领域中,我们将问题回答的任务转变为序列生成任务,以生成自由形式的自然答案来回答 3D 场景中的问题(Gen3DQA)。我们直接优化我们的模型以获得全局句子语义,并使用一种实用的语言理解奖励来进一步提高句子质量。我们的方法在 ScanQA 基准上达到了新的最佳性能(测试集的 CIDEr 得分为 72.22/66.57)。
Oct, 2023
本文提出了在 3D 真实世界场景中进行视觉问答任务的 VQA-3D,并介绍了第一个 VQA-3D 数据集 CLEVR3D 和基于 Transformer 架构的 VQA-3D 基准模型 TransVQA3D。实验证明,将 VQA-3D 作为辅助任务可以提高 3D 场景理解的性能。
Dec, 2021
通过引入 3D 感知的视觉问答(3D-aware VQA)任务以及相应的数据集 Super-CLEVR-3D 和模型 PO3D-VQA,本论文探索了在视觉场景的三维结构上进行合成推理的挑战性问题,实验证明 PO3D-VQA 模型在 3D 感知的视觉问答上取得了显著进展,但与 2D 视觉问答基准相比仍存在明显的性能差距,显示出 3D 感知的视觉问答依然是一个重要的开放研究领域。
Oct, 2023
利用问题条件的 2D 视图选择过程,将 2D 知识与 3D-VQA 系统进行整合,通过双 Transformer 结构紧密结合 2D 和 3D 模态,并捕捉模态之间的细粒度相关性,实现了面向 3D-VQA 的多模态基于 Transformer 的架构。
Feb, 2024
本研究提出了通过自然语言描述在 RGB-D 扫描中进行 3D 对象定位的方法 ScanRefer,使用 3D 对象提取和编码的句子嵌入来学习融合描述符,将语言表达与几何特征进行相关性建模,可以实现目标对象的 3D 边界框的回归。同时还构建了 ScanRefer 数据集,包含来自 800 个 ScanNet 场景的 11,046 个对象的 51,583 个描述。这是第一个通过自然语言直接在 3D 中执行对象定位的大规模尝试。
Dec, 2019
本文提出了一个自然语言文本中空间推理的问答基准,其中包含更现实的空间现象,并且挑战最先进的语言模型。我们提出了一种远距离监督方法来改善这个任务。具体来说,我们设计语法和推理规则来自动生成视觉场景的空间描述和相应的问答配对。实验证明,进一步预训练语言模型对这些自动生成的数据显著提高了语言模型对空间理解的能力,从而有助于更好地解决两个外部数据集,即 bAbI 和 boolQ。我们希望这项工作能够推动更复杂的文本空间推理模型的研究。
Apr, 2021
本文提出了一个新的大规模 3D 多视图视觉问答基准(3DMV-VQA),介绍了一种基于神经场,2D 预训练的视觉语言模型和神经推理运算符的 3D 概念学习与推理(3D-CLR)框架,并评估了各种最先进的模型,发现它们都表现不佳,提出了从多视图图像中推断出世界的紧凑 3D 表示,并在此基础上执行推理的原则方法,对挑战进行了深入分析并指出了潜在的未来方向。
Mar, 2023
本文研究了 Audio-Visual Question Answering(AVQA)任务,提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题,结果表明我们的方法优于现有的 A-V 和 AVQA 方法。
Mar, 2022