CVPRApr, 2023

CLIP 引导的视觉 - 语言预训练用于 3D 场景问答

TL;DR本文介绍了一种新颖的 3D 预训练视觉 - 语言方法,将来自 2D 图像的语言知识和视觉概念应用于 3D 世界的理解,使用流行的 CLIP 模型代入编码的 3D 场景特征以评估其 3D 世界推理能力,并在 3D 视觉问答下游任务中证明了该方法的优越性和可解释性。