Feb, 2024

2D和3D视觉问答之间的桥梁:一种用于3D VQA的融合方法

TL;DR利用问题条件的2D视图选择过程,将2D知识与3D-VQA系统进行整合,通过双Transformer结构紧密结合2D和3D模态,并捕捉模态之间的细粒度相关性,实现了面向3D-VQA的多模态基于Transformer的架构。