AAAIFeb, 2024

2D 和 3D 视觉问答之间的桥梁:一种用于 3D VQA 的融合方法

TL;DR利用问题条件的 2D 视图选择过程,将 2D 知识与 3D-VQA 系统进行整合,通过双 Transformer 结构紧密结合 2D 和 3D 模态,并捕捉模态之间的细粒度相关性,实现了面向 3D-VQA 的多模态基于 Transformer 的架构。