Jun, 2023

Multi-CLIP:针对 3D 场景中问答任务的对比视觉语言预训练

TL;DR本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型,可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。