Apr, 2023

CLIP引导的视觉-语言预训练用于3D场景问答

TL;DR本文介绍了一种新颖的3D预训练视觉-语言方法,将来自2D图像的语言知识和视觉概念应用于3D世界的理解,使用流行的CLIP模型代入编码的3D场景特征以评估其3D世界推理能力,并在3D视觉问答下游任务中证明了该方法的优越性和可解释性。