CLIP引导的视觉-语言预训练用于3D场景问答

Apr, 2023

CLIP引导的视觉-语言预训练用于3D场景问答

CLIP-Guided Vision-Language Pre-training for Question Answering in 3D Scenes

Maria Parelli, Alexandros Delitzas, Nikolas Hars, Georgios Vlassis, Sotirios Anagnostidis...

TL;DR本文介绍了一种新颖的3D预训练视觉-语言方法，将来自2D图像的语言知识和视觉概念应用于3D世界的理解，使用流行的CLIP模型代入编码的3D场景特征以评估其3D世界推理能力，并在3D视觉问答下游任务中证明了该方法的优越性和可解释性。

Abstract

Training models to apply linguistic knowledge and visual concepts from 2D images to 3d world understanding is a promising direction that researchers have only recently started to explore. In this work, we design a novel 3D →

发现论文，激发创造

CLEVR3D：3D实际场景中的组合语言与基本视觉推理问答

本文提出了在3D真实世界场景中进行视觉问答任务的VQA-3D，并介绍了第一个VQA-3D数据集CLEVR3D和基于Transformer架构的VQA-3D基准模型TransVQA3D。实验证明，将VQA-3D作为辅助任务可以提高3D场景理解的性能。

Dec, 2021

PointCLIP V2: 适应强大3D开放世界学习的CLIP

本文介绍了一种名为PointCLIP V2的3D开放世界学习器，它使用对比语言-图像预训练（CLIP）以及大规模语言模型来在3D点云数据上进行零-shot分类、部分分割和物体检测。PointCLIP V2通过引入现实形状投影模块和自动设计更具描述性的3D-语义暗示，显著超越了PointCLIP的性能。

Nov, 2022

CLIP2Scene: 基于CLIP的高效场景理解

本文介绍了一种简单而有效的框架CLIP2Scene，通过从二维预训练模型中转移知识到三维点云网络，利用语义和时空一致性正则化来预训练三维网络，实现了三维场景理解任务，并在多个数据集上进行了实验验证，其中包括无注释的3D语义分割，mIoU在nuScenes和ScanNet数据集上分别达到了20.8%和25.08%。

Jan, 2023

文本和3D点云的联合表示学习

本文提出了一种新型的Text4Point框架，通过利用2D图像作为连接点云和语言模态的桥梁，建立图像和点云的对应关系，从而通过对比学习将其对齐；并进一步引入文本查询模块，查询点云特征的文本嵌入，将语言信息整合到3D表示学习中，提高各种下游任务的性能。

Jan, 2023

多视角图像中的三维概念学习和推理

本文提出了一个新的大规模3D多视图视觉问答基准（3DMV-VQA），介绍了一种基于神经场，2D预训练的视觉语言模型和神经推理运算符的3D概念学习与推理（3D-CLR）框架，并评估了各种最先进的模型，发现它们都表现不佳，提出了从多视图图像中推断出世界的紧凑3D表示，并在此基础上执行推理的原则方法，对挑战进行了深入分析并指出了潜在的未来方向。

Mar, 2023

CLIP$^2$: 来自现实世界点云数据的对比语言-图像-点预训练

本文提出 Contrastive Language-Image-Point Cloud Pretraining (CLIP2) 方法，通过建立二三维场景对齐的实例文本-图像-点云代理和交叉模态对比学习策略，直接学习可迁移的三维点云表示，并在室内和室外场景中实验验证了其在零样本和少样本三维识别任务中的显著性能提升。

Mar, 2023

Multi-CLIP：针对 3D 场景中问答任务的对比视觉语言预训练

本研究提出一种名为MULTI-CLIP的3D预训练视觉语言模型，可有效提高现有3D视觉问答任务的表现并构建出具有良好结构的3D场景特征空间。

Jun, 2023

Chat-3D：数据高效调整大型语言模型，用于3D场景的通用对话

本文介绍了Chat-3D，它通过将预训练的3D表示与先进的LLM的推理和对话能力相结合，实现了首个用于3D场景的通用对话系统。 Chat-3D能够感知3D世界，具备理解各种3D场景指令、进行复杂的空间推理并将外部知识融入其响应的能力。在构建的指令数据集上，Chat-3D相对于GPT-4获得了相对得分75.6%。

Aug, 2023

生成三维场景中问题的上下文感知自然答案

在3D视觉语言的年轻领域中，我们将问题回答的任务转变为序列生成任务，以生成自由形式的自然答案来回答3D场景中的问题（Gen3DQA）。我们直接优化我们的模型以获得全局句子语义，并使用一种实用的语言理解奖励来进一步提高句子质量。我们的方法在ScanQA基准上达到了新的最佳性能（测试集的CIDEr得分为72.22/66.57）。

Oct, 2023

通过提问实现三维视觉与语言理解的统一化

通过统一各种三维场景表示方法，使用可提示的查询（Promptable Queries）解决低级实例分割至高级推理与规划等广泛的三维视觉语言任务的统一模型（PQ3D）。在十个多样化的三维视觉语言数据集上进行测试，PQ3D在这些任务中表现出令人印象深刻的性能，并在大多数基准测试中创造了新记录。

May, 2024