POP-3D：基于图像的开放词汇 3D 实占预测

Jan, 2024

POP-3D：基于图像的开放词汇 3D 实占预测

POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images

Antonin Vobecky, Oriane Siméoni, David Hurych, Spyros Gidaris, Andrei Bursuc...

TL;DR我们描述了一种预测开放词汇的 3D 语义体素占用图的方法，该方法可实现对自由形式语言查询进行 3D 定位、分割和检索。我们设计了一种新的模型架构，包括 2D-3D 编码器、占用预测和 3D 语言头；开发了一种三模态自监督学习算法，利用图像、语言和 LiDAR 点云三种模态来训练所提出的架构；并在几个开放词汇任务上定量展示了所提出模型的优势。

Abstract

We describe an approach to predict open-vocabulary 3D semantic voxel occupancy map from input 2D images with the objective of enabling 3d grounding, segmentation and →

open-vocabulary 3d semantic voxel occupancy 3d grounding segmentation retrieval tri-modal self-supervised learning

发现论文，激发创造

OVO: 开放词汇占用

本文提出了 Open Vocabulary Occupancy (OVO) 算法，通过知识蒸馏和像素 - 体素筛选两个关键步骤，可以对任意类别进行语义占据的预测，同时适用于大多数最先进的语义占据预测模型。在 NYUv2 和 SemanticKITTI 数据集上，OVO 与有监督的方法相比具有竞争性的性能。

May, 2023

OpenOcc：基于占据表示的开放词汇量三维场景重建

我们提出了 OpenOcc，一种将 3D 场景重建和开放词汇理解与神经辐射场结合的新型框架。通过占位表示法对场景的几何结构进行建模，并通过体素渲染将预训练的开放词汇模型蒸馏为 3D 语言场，以实现零 - shot 推理。此外，我们提出了一种新颖的语义感知置信度传播（SCP）方法，以缓解由于蒸馏特征中不一致测量而引起的语言场表示退化问题。实验证明，我们的方法在 3D 场景理解任务中取得了有竞争力的性能，特别是对于小物体和长尾物体。

Mar, 2024

PLA: 基于自然语言的开放词汇三维场景理解

通过对具有语义丰富标题的多视图图像进行记录，来设计分层三维标题对，使用对比学习，学习与图像相连的语言感知嵌入，并在开放词汇语义和实例分割方面表现出卓越的性能，具有鲁棒的可迁移性。

Nov, 2022

OpenMask3D: 开放式词汇的三维实例分割

本研究介绍了一种开放词汇的 3D 实例分割任务，使用零样本学习来提高模型在目标实例分割方面的泛化性，并设计了 OpenMask3D 方法，该方法使用预测的类别不可知的 3D 实例掩码来聚合每个掩码的特征，通过多视图融合和基于 CLIP 的图像嵌入来提高分割的性能。

Jun, 2023

OpenScene: 利用开放式词汇的 3D 场景理解

使用 OpenScene 和 zero-shot 方法，借助于 CLIP 特征空间将 3D 场景中的点嵌入到文本和图像像素中，以达到不确定性的训练和开放词汇量的查询场景的目的。

Nov, 2022

UniM-OV3D：使用细粒度特征表示的单模态开放词汇三维场景理解

本文提出了一种统一的多模态三维开放词汇场景理解网络 (UniM-OV3D)，通过对齐点云、图像、语言和深度信息，设计了一个分层点云特征提取模块并使用了层次化三维标题对来提高粗到细点云语义表示学习，实验结果表明我们的方法在室内外基准测试中实现了开放式语义和实例分割的最先进性能。

Jan, 2024

Occ3D：面向自动驾驶的大规模三维占据预测基准

本研究提出了一种新的 3D 占据预测任务，旨在从多视图图像中估计对象的详细占据和语义信息，并介绍了 Coarse-to-Fine Occupancy (CTF-Occ) 网络模型，该模型在 3D 占据预测任务中表现出优越的性能。

Apr, 2023

2D-3D 视觉 - 语言蒸馏的 3D 开放词汇全景分割

我们提出了一种新方法，通过学习 LiDAR 特征和固定的 CLIP 特征之间的融合来处理 3D 开放式词汇全景分割问题，并提出了两个新的损失函数：物体级蒸馏损失和体素级蒸馏损失。在 nuScenes 和 SemanticKITTI 数据集上的实验证明，我们的方法显著优于强基准模型。

Jan, 2024

基于基础模型的 3D 开放词汇分割

本研究利用预训练的 CLIP 和 DINO 模型的多模式知识和物体推理能力来解决三维开放式词汇分割的挑战。通过优化神经辐射场 (NeRF) 并引入相应的损失函数，本研究在无需进行微调的情况下，以开放式视觉和文本知识为先验知识，从 2D 特征中提取出 3D 分割特征。通过实验验证，本研究所提出的方法在无需分割注释的情况下，甚至优于完全监督的分割模型训练，表明三维开放式词汇分割可以有效地从 2D 图像和文本图像对中学到。

May, 2023

无需三维注释的开放词汇点云物体检测

本文探讨了通过分治策略进行开放式词汇 3D 点云检测的方法，该方法使用图像预训练模型来学习定位各种对象，并连接文本和点云表示，以便根据提示文本对新对象类别进行分类，从而实现开放式词汇 3D 目标检测，同时在 ScanNet 和 SUN RGB-D 数据集上实现了显著的性能提升。

Apr, 2023