Jun, 2023

Multi-CLIP:针对 3D 场景中问答任务的对比视觉语言预训练

TL;DR本研究提出一种名为MULTI-CLIP的3D预训练视觉语言模型,可有效提高现有3D视觉问答任务的表现并构建出具有良好结构的3D场景特征空间。