Dec, 2021

CLEVR3D:3D实际场景中的组合语言与基本视觉推理问答

TL;DR本文提出了在3D真实世界场景中进行视觉问答任务的VQA-3D,并介绍了第一个VQA-3D数据集CLEVR3D和基于Transformer架构的VQA-3D基准模型TransVQA3D。实验证明,将VQA-3D作为辅助任务可以提高3D场景理解的性能。