关于部件、姿势和遮挡的3D感知视觉问答

Oct, 2023

关于部件、姿势和遮挡的3D感知视觉问答

3D-Aware Visual Question Answering about Parts, Poses and Occlusions

Xingrui Wang, Wufei Ma, Zhuowan Li, Adam Kortylewski, Alan Yuille

TL;DR通过引入3D感知的视觉问答（3D-aware VQA）任务以及相应的数据集Super-CLEVR-3D和模型PO3D-VQA，本论文探索了在视觉场景的三维结构上进行合成推理的挑战性问题，实验证明PO3D-VQA模型在3D感知的视觉问答上取得了显著进展，但与2D视觉问答基准相比仍存在明显的性能差距，显示出3D感知的视觉问答依然是一个重要的开放研究领域。

Abstract

Despite rapid progress in visual question answering (VQA), existing datasets and models mainly focus on testing reasoning in 2D. However, it is important that VQA models also understand the 3d structure of visual

发现论文，激发创造

OK-VQA：需要外部知识的视觉问答基准

本文提出了名为OK-VQA的基于知识的视觉问答基准，要求使用外部知识资源来回答问题，该任务是多样的、困难的和大型的，与以前的基于知识的VQA数据集相比具有更高的难度。

May, 2019

3D问答

本文提出了一种基于Transformer的3D问答框架，名为3DQA-TR，通过利用外观和几何信息对多模态信息进行编码，以实现对于3D领域的问答。同时，作者开发了第一个3DQA数据集“ScanQA”，该数据集包含了大约6K个问题和30K个答案，可用于验证3DQA-TR的有效性。实验结果表明该3DQA框架优于现有的VQA框架且高效设计的效果较好。

Dec, 2021

ScanQA: 三维问题回答用于空间场景理解

通过学习语言表达与三维场景的地理特征相关的学习描述符，我们提出了一种基线模型（ScanQA），用于在三维环境中执行基于对象的问题回答，并构建了一个新的ScanQA数据集，其中包含来自800个室内场景的40,000个问题答案对。

Dec, 2021

CLEVR3D：3D实际场景中的组合语言与基本视觉推理问答

本文提出了在3D真实世界场景中进行视觉问答任务的VQA-3D，并介绍了第一个VQA-3D数据集CLEVR3D和基于Transformer架构的VQA-3D基准模型TransVQA3D。实验证明，将VQA-3D作为辅助任务可以提高3D场景理解的性能。

Dec, 2021

A-OKVQA: 利用世界知识的视觉问答基准

介绍了 A-OKVQA 数据集，它包含了约 25000 个多样化的问题，需要广泛的常识和世界知识才能回答，相对于现有的基于知识的 VQA 数据集，这些问题通常不能通过简单地查询知识库来回答，而是需要对图像中所描绘的场景进行某种形式的常识推理，该数据集对几种最先进的视觉语言模型进行了基础性能测试。

Jun, 2022

通过多任务学习实现相对方向根据的全面 VQA 数据集：早期确定“正确性”含义

本文介绍了一种基于抽象物体的新型诊断性视觉问答数据集GRiD-A-3D，以分析端到端VQA模型在相对方向上的地面能力的细粒度。同时，该数据集相对于现有数据集需要更少的计算资源，但具有相当甚至更高的性能。通过基于GRiD-A-3D训练的两个知名端到端VQA架构的彻底评估，本文证明了在相对指令直观处理的顺序中学习场景中物体的识别和定位以及估计它们内在方向的子任务。

Jul, 2022

多视角图像中的三维概念学习和推理

本文提出了一个新的大规模3D多视图视觉问答基准（3DMV-VQA），介绍了一种基于神经场，2D预训练的视觉语言模型和神经推理运算符的3D概念学习与推理（3D-CLR）框架，并评估了各种最先进的模型，发现它们都表现不佳，提出了从多视图图像中推断出世界的紧凑3D表示，并在此基础上执行推理的原则方法，对挑战进行了深入分析并指出了潜在的未来方向。

Mar, 2023

2D和3D视觉问答之间的桥梁：一种用于3D VQA的融合方法

利用问题条件的2D视图选择过程，将2D知识与3D-VQA系统进行整合，通过双Transformer结构紧密结合2D和3D模态，并捕捉模态之间的细粒度相关性，实现了面向3D-VQA的多模态基于Transformer的架构。

Feb, 2024

通过提问实现三维视觉与语言理解的统一化

通过统一各种三维场景表示方法，使用可提示的查询（Promptable Queries）解决低级实例分割至高级推理与规划等广泛的三维视觉语言任务的统一模型（PQ3D）。在十个多样化的三维视觉语言数据集上进行测试，PQ3D在这些任务中表现出令人印象深刻的性能，并在大多数基准测试中创造了新记录。

May, 2024

迈向3D视觉的基础模型：我们离目标有多近？

本研究针对当前3D视觉模型与人类之间的差距，构建了一个新的基准，以评估3D视觉理解的能力与不足。研究发现，尽管当前的视觉语言模型表现不佳，专用模型在几何扰动下缺乏鲁棒性，但神经网络在三维视觉机制上更接近人类视觉。这一发现为未来3D视觉基础模型的发展提供了重要的指导。

Oct, 2024