快速高效：用于 3D 场景分割的掩模神经场

Jul, 2024

快速高效：用于 3D 场景分割的掩模神经场

Fast and Efficient: Mask Neural Fields for 3D Scene Segmentation

Zihan Gao, Lingling Li, Licheng Jiao, Fang Liu, Xu Liu...

TL;DR通过底层模型的信号转换，快速高效地进行弱监督下的 3D 场景分割。

Abstract

Understanding 3d scenes is a crucial challenge in computer vision research with applications spanning multiple domains. Recent advancements in distilling 2D vision-language foundation models into →

3d scenes computer vision neural fields open-vocabulary segmentation maskfield

发现论文，激发创造

几何感知的场场变换用于三维语义分割

我们提出了一种新颖的方法，通过利用神经辐射场（NeRFs）从二维监督中进行三维语义分割，通过提取表面点云上的特征，实现了场景的紧凑表示，这种表示对于三维推理而言具有高效的采样并且适于少样本分割。我们的方法不依赖于场景参数化，可以适用于任何类型的 NeRF 场景。

Oct, 2023

Feature 3DGS：将 3D 高斯点云渲染升级至精简特征场

通过 2D 基础模型的 3D 特征场蒸馏，我们提出了一种通用的方法，用于实现新颖视图的语义分割、语言引导编辑和任意维度语义特征的 3D 高斯喷洒，提供可比较或更好的结果，并且训练和渲染速度显著更快。

Dec, 2023

通过特征场蒸馏分解 NeRF 以进行编辑

本文提出通过蒸馏出自监督的 2D 图像特征提取器的知识，优化一种针对 NeRF 的 3D 特征场，从而实现语义场景分解以及针对局部区域的查询式编辑，从而实现结构编辑的目的。通过实验证明，3D 特征场可以将最近在 2D 视觉和语言基础模型中取得的进展应用于 3D 场景表示，从而实现令人信服的 3D 分割和选择性编辑。

May, 2022

神经特征融合场：自监督二维图像表征的三维蒸馏

使用神经特征融合场（N3F）方法，将预训练的 2D 图像特征提取器引入到对可重建为 3D 场景的多个图像的分析中，以学习在 3D 空间中定义的用于提取特征的学生网络，证明在各种任务中， including 2D 对象检索、3D 分割和场景编辑，N3F 不仅在特定场景神经场上实现了语义理解而且一贯优于自监督 2D 基线。

Sep, 2022

N2F2：具有嵌套神经特征场的分层场景理解

通过引入分层监督和延迟体积渲染，我们提出了一种名为 Nested Neural Feature Fields（N2F2）的新方法，通过学习单个特征场来对复杂场景进行多层次的抽象理解，实现了对场景的全面和细致的理解，取得了在计算机视觉领域的一些任务上超越了现有方法。

Mar, 2024

NeSF: 用于三维场景的神经语义字段通用语义分割

NeSF 是一种从 RGB 图像中生成 3D 语义场的方法，它利用了隐式神经场表示法，根据点积函数捕捉 3D 结构，能够在任意 3D 点上查询，并且生成可以与真实场景相对应的 3D 一致的语义图谱，是第一种只需要 2D 监督进行训练的真正密集的 3D 场景分割方法。

Nov, 2021

实例神经辐射场

这篇论文介绍了一种名为 Instance NeRF 的学习型 NeRF 3D 实例分割管道，它采用 3D 提案基于掩膜预测网络，可以学习给定场景的 3D 实例分割，并在任意 3D 点查询实例信息，超越了以前的 NeRF 分割方法和具有竞争力的 2D 分割方法。

Apr, 2023

M^2DNeRF：带有 3D 特征域的多模态分解 NeRF

多模态分解 NeRF（${M^2D}$NeRF）是一种能够进行文本和视觉补丁编辑的单一模型，通过使用多模态特征蒸馏来整合来自预训练视觉和语言模型的教师特征到三维语义特征体积，从而促进一致的三维编辑。实验证明，在三维场景分解任务中，相较于以前的基于 NeRF 的方法具有更优异的性能。

May, 2024

紧凑的三维高斯辐射场表示

通过学习性的掩码策略和向量量化，我们减少了高斯点的数量和占用的存储空间，实现了高性能、快速训练、紧凑且实时的渲染，提供了一个全面的三维场景表示框架。

Nov, 2023

高效三维实例映射和定位

我们提出了一种新的框架 3DIML，用于从一系列姿态 RGB 图像中学习隐式场景表示，以实现 3D 实例分割，该框架可以有效地学习一个标签场，并且可以在新视角中进行渲染，生成视图一致的实例分割掩码。我们通过对 Replica 和 ScanNet 数据集的序列进行评估，展示了 3DIML 在图像序列的轻度假设下的有效性，相比具有相似质量的现有方法，我们取得了 14-24 倍的加速，展示了它在加快和提高 3D 场景理解方面的潜力。

Mar, 2024