本文提出了在3D真实世界场景中进行视觉问答任务的VQA-3D,并介绍了第一个VQA-3D数据集CLEVR3D和基于Transformer架构的VQA-3D基准模型TransVQA3D。实验证明,将VQA-3D作为辅助任务可以提高3D场景理解的性能。
Dec, 2021
本文介绍了一种新颖的3D预训练视觉-语言方法,将来自2D图像的语言知识和视觉概念应用于3D世界的理解,使用流行的CLIP模型代入编码的3D场景特征以评估其3D世界推理能力,并在3D视觉问答下游任务中证明了该方法的优越性和可解释性。
Apr, 2023
本研究提出一种名为MULTI-CLIP的3D预训练视觉语言模型,可有效提高现有3D视觉问答任务的表现并构建出具有良好结构的3D场景特征空间。
Jun, 2023
本文介绍了Chat-3D,它通过将预训练的3D表示与先进的LLM的推理和对话能力相结合,实现了首个用于3D场景的通用对话系统。 Chat-3D能够感知3D世界,具备理解各种3D场景指令、进行复杂的空间推理并将外部知识融入其响应的能力。在构建的指令数据集上,Chat-3D相对于GPT-4获得了相对得分75.6%。
Aug, 2023
通过引入3D感知的视觉问答(3D-aware VQA)任务以及相应的数据集Super-CLEVR-3D和模型PO3D-VQA,本论文探索了在视觉场景的三维结构上进行合成推理的挑战性问题,实验证明PO3D-VQA模型在3D感知的视觉问答上取得了显著进展,但与2D视觉问答基准相比仍存在明显的性能差距,显示出3D感知的视觉问答依然是一个重要的开放研究领域。
Oct, 2023
Uni3DL是一个统一的3D和语言理解模型,它运用于点云而不是传统的多视图图像,实现了对多种3D任务的支持,包括语义分割、目标检测、实例分割、视觉定位、3D字幕和文本-3D跨模态检索,并且在性能上超过了最先进的特定任务模型。
Dec, 2023
我们构建了一个包含75K个指令-回答对的广泛数据集,针对3D场景进行了任务,如3D VQA、3D grounding和3D conversation,并引入了一种名为3DMIT的新颖且高效的提示调优范例,通过将3D空间信息整合到LLMs中,使其更好地理解3D世界。
Jan, 2024
利用问题条件的2D视图选择过程,将2D知识与3D-VQA系统进行整合,通过双Transformer结构紧密结合2D和3D模态,并捕捉模态之间的细粒度相关性,实现了面向3D-VQA的多模态基于Transformer的架构。
Feb, 2024
本研究通过引入Uni3DR^2提取3D几何和语义感知表示特征的统一场景表示和重建框架,证明了该框架对于大型语言模型在3D场景中的重要性,并在多个实验中取得了令人信服的结果。
Apr, 2024
通过扩展多模态大语言模型 (MLLMs) 的感知能力以在三维空间中对图像进行定位和推理,本研究引入了一个名为 Cube-LLM 的新 MLLM,并在 LV3D 数据集上进行预训练,实验表明 Cube-LLM 在整体 MLLM 和特定领域的基准测试中均表现出色,并取得了显著的成果。
May, 2024