OpenNeRF：使用像素级特征和渲染新视图的开放式 3D 神经场景分割

ICLRApr, 2024

OpenNeRF：使用像素级特征和渲染新视图的开放式 3D 神经场景分割

OpenNeRF: Open Set 3D Neural Scene Segmentation with Pixel-Wise Features and Rendered Novel Views

Francis Engelmann, Fabian Manhardt, Michael Niemeyer, Keisuke Tateno, Marc Pollefeys...

TL;DROpenNeRF 是一种在视觉 - 语言模型中自然地进行操作的方法，通过使用像素级的 VLM 特征，可以在不需要额外的 DINO 规范化的情况下实现更简化的架构，并在 3D 点云分割上优于近期的开放词汇方法，如 LERF 和 OpenScene，至少优势为 + 4.9 mIoU。

Abstract

Large visual-language models (VLMs), like CLIP, enable open-set image segmentation to segment arbitrary concepts from an image in a zero-shot manner. This goes beyond the traditional closed-set assumption, i.e., where models can only segment classes from a pre-defined training set. Mor

visual-language models open-set segmentation 3d scenes clip features opennerf

发现论文，激发创造

Open-NeRF：面向开放词汇的 NeRF 分解

该研究关注解决从开放词汇中将神经辐射场（NeRF）分解为对象的挑战，这对于三维重建和视图合成中的对象操作是至关重要的。我们提出了 Open-NeRF，利用大规模、现成的分割模型，如 Segment Anything Model（SAM），并引入了一种集成和蒸馏范式，通过层次嵌入来既实现开放词汇查询的灵活性，又保持三维分割的准确性。Open-NeRF 首先利用大规模的基础模型根据不同视角生成分层的二维掩模提案，然后通过跟踪方法对这些提案进行对齐，并在三维空间中进行集成，最后蒸馏为三维场。该过程确保了不同视角下的对象一致识别和细粒度，即使在涉及遮挡和模糊特征的挑战性场景中也是如此。实验结果表明，Open-NeRF 在开放词汇的场景中胜过了 LERF 和 FFD 等最先进的方法。Open-NeRF 为 NeRF 分解提供了一个有前途的解决方案，通过开放词汇查询引导，能够在开放世界的三维场景中实现新的机器人和视觉语言交互应用。

Oct, 2023

OV-NeRF: 基于视觉和语言的开放词汇神经辐射场技术用于 3D 语义理解

利用 OV-NeRF 模型，通过单视图和跨视图策略，在 3D 场景中提高语义感知能力，通过 Region Semantic Ranking（RSR）和 Cross-view Self-enhancement（CSE）方法解决了噪声和不一致语义的问题，实验证明其优于当前最先进方法并表现出稳定的性能。

Feb, 2024

OR-NeRF：由多视角分割指导的神经辐射场，用于删除 3D 场景中的对象

本文提出了一种名为 OR-NeRF 的新型对象移除流水线，它可以在单个视图上通过点或文本提示从 3D 场景中移除对象，并在更短的时间内实现更好的性能。

May, 2023

基于基础模型的 3D 开放词汇分割

本研究利用预训练的 CLIP 和 DINO 模型的多模式知识和物体推理能力来解决三维开放式词汇分割的挑战。通过优化神经辐射场 (NeRF) 并引入相应的损失函数，本研究在无需进行微调的情况下，以开放式视觉和文本知识为先验知识，从 2D 特征中提取出 3D 分割特征。通过实验验证，本研究所提出的方法在无需分割注释的情况下，甚至优于完全监督的分割模型训练，表明三维开放式词汇分割可以有效地从 2D 图像和文本图像对中学到。

May, 2023

通过特征场蒸馏分解 NeRF 以进行编辑

本文提出通过蒸馏出自监督的 2D 图像特征提取器的知识，优化一种针对 NeRF 的 3D 特征场，从而实现语义场景分解以及针对局部区域的查询式编辑，从而实现结构编辑的目的。通过实验证明，3D 特征场可以将最近在 2D 视觉和语言基础模型中取得的进展应用于 3D 场景表示，从而实现令人信服的 3D 分割和选择性编辑。

May, 2022

基于点的神经辐射场模型：Point-NeRF

该论文介绍了一种新的基于神经网络点云的辐射场模型 ——Point-NeRF，它结合了 NeRF 和深度多视图立体成像两种方法的优点，可用于高质量的视图合成和快速的场景几何重建。Point-NeRF 可以通过射线行走的渲染管道有效地渲染神经点特征，相对于 NeRF 具有快速训练和处理 3D 重建错误和异常数据的优势。

Jan, 2022

OpenObj：具有细粒度理解的开放词汇对象级神经辐射场

通过 OpenObj 方法，在 3D 场景重建方面，有效地建立开放性对象级别的 Neural Radiance Fields，以实现细粒度的理解和零 - shot 语义分割。

Jun, 2024

全景城市场景分割的 3D 到 2D 标签转移的 Panoptic NeRF

本研究提出了一种新的 3D 到 2D 标签转换方法 - Panoptic NeRF 用于语义分割和实例分割任务，它利用了现有数据集中 2D 语义线索和粗糙 3D 标注信息的统一，实现了多视角一致的二维标签生成，可以提高多视角下的几何语义渲染准确性，消除粗糙 3D 标注的标签歧义和 2D 语义标注的噪声，与其他标签转移方法相比，在 KITTI-360 数据集的城市场景中，Panoptic NeRF 在准确度和多视角一致性方面表现更好。

Mar, 2022

GP-NeRF：通用感知 NeRF 用于上下文感知 3D 场景理解

提出了一种通用感知 NeRF（GP-NeRF）模型，通过引入 transformers 和自我蒸馏机制，实现了语义场和几何场的联合渲染，以促进具有上下文感知的三维场景理解。在评估中，使用合成和真实世界数据集进行了两个感知任务（即语义和实例分割）的实验比较，取得了显著的优于现有方法的效果。

Nov, 2023

激光：用于三维生成建模的潜在集表示

Laser-NV 是一种基于集合型潜在变量模型的生成模型，通过几个视角进行快速前向推理，同时结合几何分析的注意机制生成一般三维物体的高保真且一致性良好的图像。

Jan, 2023