Jun, 2023
Multi-CLIP:针对 3D 场景中问答任务的对比视觉语言预训练
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes
Alexandros Delitzas, Maria Parelli, Nikolas Hars, Georgios Vlassis, Sotirios Anagnostidis...
TL;DR本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型,可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。