Model2Scene: 通过对比学习语言 - CAD 模型预训练实现 3D 场景表示

Sep, 2023

Model2Scene: 通过对比学习语言 - CAD 模型预训练实现 3D 场景表示

Model2Scene: Learning 3D Scene Representation via Contrastive Language-CAD Models Pre-training

Runnan Chen, Xinge Zhu, Nenglun Chen, Dawei Wang, Wei Li...

TL;DR当前成功的三维场景感知方法依赖于大规模标注的点云，获取费时费力。本文提出了 Model2Scene，一种新颖的范式，从计算机辅助设计 (CAD) 模型和语言中学习自由的三维场景表示。主要挑战是 CAD 模型与真实场景对象之间的领域差异，包括模型到场景的转换和合成模型到真实场景对象的转换。为了应对上述挑战，Model2Scene 首先通过混合数据增强的 CAD 模型模拟拥挤的场景。然后，我们提出了一种称为深凸包正则化 (DCR) 的新颖特征正则化操作，将点特征投影到统一的凸包空间，减小领域差距。最后，我们对 CAD 模型的语言嵌入和点特征进行对比损失的预训练，形成 3D 网络。大量实验证实了学习到的三维场景表示对各种下游任务的益处，包括无标签三维物体显著目标检测、标签高效三维场景感知和零样本三维语义分割。值得注意的是，Model2Scene 在 ScanNet 和 S3DIS 数据集上实现了令人印象深刻的无标签三维物体显著目标检测，平均 mAP 分别为 46.08% 和 55.49%。代码将公开提供。

Abstract

Current successful methods of 3d scene perception rely on the large-scale annotated point cloud, which is tedious and expensive to acquire. In this paper, we propose model2scene, a novel paradigm that learns free

3d scene perception model2scene cad models domain gap 3d object salient detection

发现论文，激发创造

使用对比场景语境探索数据高效的三维场景理解

本文提出一种基于对比场景上下文的三维预训练方法，在数据量和标注不足时实现了全面标注的近乎完全的实例分割和语义分割。

Dec, 2020

Lang3DSG: 基于语言的对比预训练用于 3D 场景图预测

我们提出了第一个针对 3D 场景图的基于语言的预训练方法，利用了场景图和语言之间的强关联，通过对比性预训练将文本嵌入关系和预测的 3D 图特征进行对齐，最终实现了在主要语义 3D 场景图基准上的效果最优，超过现有全监督场景图预测方法的显著边缘，并且由于场景图特征与语言对齐，允许我们以零样本的方式查询特征的语言空间。

Oct, 2023

统一场景表示和重建用于三维大型语言模型

本研究通过引入 Uni3DR^2 提取 3D 几何和语义感知表示特征的统一场景表示和重建框架，证明了该框架对于大型语言模型在 3D 场景中的重要性，并在多个实验中取得了令人信服的结果。

Apr, 2024

从 3D 模型学习深度物体检测器

通过增加合成训练数据，使得含有 3D CAD 模型的深度卷积神经网络（DCNN）训练数据可以更好地适应目标领域，本文详细分析了在没有低级线索（纹理，姿态和背景）的情况下 DCNN 的学习能力，并表明我们的合成 DCNN 训练方法在几乎没有真实数据的情况下可以在 PASCAL VOC2007 数据集上获得更好的性能，并且可以在 Office 基准测试中的域偏移场景中提高性能。

Dec, 2014

RandomRooms：从合成形状和随机布局进行无监督预训练以进行 3D 物体检测

该研究提出一种名为 RandomRooms 的新方法，利用合成 CAD 数据集中的对象生成场景的随机布局并通过对象级对比学习来学习 3D 场景表示，并表明该模型可用于提高 3D 检测任务的性能和泛化能力，从而在 ScanNetV2 和 SUN RGB-D 等流行的 3D 检测基准上取得新的最优结果。

Aug, 2021

Object2Scene：为开放词汇的 3D 检测将对象放入上下文中

Object2Scene 和 L3Det 是用于开放词汇 3D 物体检测的首个方法，通过引入大规模的 3D 物体数据集，将物体插入到 3D 场景中来丰富 3D 场景数据集的词汇，并在不同数据集的 3D 对象之间缓解领域差异，并证实了其在 OV-ScanNet-200 基准测试中的有效性。

Sep, 2023

Mask2CAD：通过学习分割和检索实现 3D 形状预测

本文提出了一种基于 CAD 模型的方法，结合现有的大规模三维模型数据集，构建了一种可以检测现实世界图像中物体的 CAD 模型表示方法，并且证明了与现有技术相比，该方法在真实世界图像中有着优势。

Jul, 2020

CLIP2Scene: 基于 CLIP 的高效场景理解

本文介绍了一种简单而有效的框架 CLIP2Scene，通过从二维预训练模型中转移知识到三维点云网络，利用语义和时空一致性正则化来预训练三维网络，实现了三维场景理解任务，并在多个数据集上进行了实验验证，其中包括无注释的 3D 语义分割，mIoU 在 nuScenes 和 ScanNet 数据集上分别达到了 20.8% 和 25.08%。

Jan, 2023

RegionPLC：区域点 - 语言对比学习用于开放世界 3D 场景理解

本文提出了一种开放式 3D 场景理解模型 ——RegionPLC，并通过对模型进行训练，使其具有开放词汇识别能力。采用密集视觉提示来引导从 2D 基本模型中提取区域级视觉语言知识，通过指针鉴别式对比学习，进一步使其实现从标题中对密集场景进行理解，最终在 ScanNet、ScanNet200 和 nuScenes 数据集上进行了详尽实验，实现的结果较之前的 3D 开放式场景理解方法有显著提升。

Apr, 2023

基于物体对比学习的视觉 - 语言预训练技术在三维场景理解中的应用

本文提出了一种 3D 视觉语言预训练框架 3DVLP，可以在 3D 视觉语言下游任务中有很好的表现，该框架考虑了场景中物体的关联性，提出了多个任务来实现对象级交叉对齐和区分，与任务特定方法相比具有更好的泛化性能。

May, 2023