DM-NeRF:从 2D 图像中分解和操作 3D 场景几何形状
本论文提出了一个统一的神经辐射场(NeRF)框架,以有效地进行场景分解和合成,用于建模现实世界场景,通过学习不同对象的解耦 3D 表示进行场景编辑,同时为新颖视角合成建模整个场景表示。
Aug, 2023
本文提出通过蒸馏出自监督的 2D 图像特征提取器的知识,优化一种针对 NeRF 的 3D 特征场,从而实现语义场景分解以及针对局部区域的查询式编辑,从而实现结构编辑的目的。通过实验证明,3D 特征场可以将最近在 2D 视觉和语言基础模型中取得的进展应用于 3D 场景表示,从而实现令人信服的 3D 分割和选择性编辑。
May, 2022
本文提出了一种名为 OR-NeRF 的新型对象移除流水线,它可以在单个视图上通过点或文本提示从 3D 场景中移除对象,并在更短的时间内实现更好的性能。
May, 2023
多模态分解 NeRF(${M^2D}$NeRF)是一种能够进行文本和视觉补丁编辑的单一模型,通过使用多模态特征蒸馏来整合来自预训练视觉和语言模型的教师特征到三维语义特征体积,从而促进一致的三维编辑。实验证明,在三维场景分解任务中,相较于以前的基于 NeRF 的方法具有更优异的性能。
May, 2024
本研究提出了 Obj-NeRF,一种综合管道,通过使用一个单一的提示从多视图图像中恢复特定对象的 3D 几何形状。该方法结合了 Segment Anything Model(SAM)的 2D 分割能力和 NeRF 的 3D 重建能力,并应用了几种有效技术。此外,研究还构建了一个包含多样化对象的大规模对象级 NeRF 数据集,可在各种下游任务中发挥作用。为了证明我们的方法的实用性,我们还将 Obj-NeRF 应用于包括对象去除、旋转、替换和重新上色在内的各种应用。
Nov, 2023
该研究关注解决从开放词汇中将神经辐射场(NeRF)分解为对象的挑战,这对于三维重建和视图合成中的对象操作是至关重要的。我们提出了 Open-NeRF,利用大规模、现成的分割模型,如 Segment Anything Model(SAM),并引入了一种集成和蒸馏范式,通过层次嵌入来既实现开放词汇查询的灵活性,又保持三维分割的准确性。Open-NeRF 首先利用大规模的基础模型根据不同视角生成分层的二维掩模提案,然后通过跟踪方法对这些提案进行对齐,并在三维空间中进行集成,最后蒸馏为三维场。该过程确保了不同视角下的对象一致识别和细粒度,即使在涉及遮挡和模糊特征的挑战性场景中也是如此。实验结果表明,Open-NeRF 在开放词汇的场景中胜过了 LERF 和 FFD 等最先进的方法。Open-NeRF 为 NeRF 分解提供了一个有前途的解决方案,通过开放词汇查询引导,能够在开放世界的三维场景中实现新的机器人和视觉语言交互应用。
Oct, 2023
我们将来自未知姿态的多视图重建问题作为一个生成建模问题。通过一组未标注的场景的 2D 图像,我们的方法同时学习了一个网络来预测从 2D 图像输入中的相机姿态,并学习了用于 3D 场景的神经辐射场(NeRF)的参数。通过在标准去噪目标下使用去噪扩散概率模型(DDPM)将姿态预测网络和 NeRF 结合在一起并训练系统来推动学习进展。我们的框架要求系统通过预测图像的姿态并渲染 NeRF 来完成去噪输入 2D 图像的任务。学习去噪因此迫使系统同时学习底层的 3D NeRF 表示和从图像到摄像机外参数的映射。为了促进后者,我们设计了一个自定义的网络架构来将姿态表示为一个分布,从而在仅进行去噪训练时具备发现视图对应关系的隐式能力。这种技术允许我们的系统成功构建 NeRFs,并在竞争方法失败的具有挑战性的场景中使用。在训练结束时,我们学习到的 NeRF 可以被提取并用作 3D 场景模型;我们的完整系统可以用于采样新的相机姿态并生成新的视角图像。
Jun, 2024
MVG-NeRF 组合了传统的多视角几何算法和神经辐射场 (NeRF) 用于基于图像的三维重建。我们提出使用像素级深度和法线来引导 NeRF 优化,以提高所估计表面的质量。实验结果表明,该方法可以从图像中获取干净的三维网格,同时在新视角合成方面具有竞争力的表现。
Oct, 2022
我们提出了一种新颖的方法,通过利用神经辐射场(NeRFs)从二维监督中进行三维语义分割,通过提取表面点云上的特征,实现了场景的紧凑表示,这种表示对于三维推理而言具有高效的采样并且适于少样本分割。我们的方法不依赖于场景参数化,可以适用于任何类型的 NeRF 场景。
Oct, 2023
在单目三维检测领域,为了提高检测性能常常使用场景几何线索,然而现有的方法明确采用这些线索,例如估计深度图并将其反投影到三维空间。为了缓解这个问题,我们提出了 MonoNeRD,这是一个能够推断密集三维几何和占用的新型检测框架,我们将场景建模为有符号距离函数(SDF),利用体素渲染恢复 RGB 图像和深度图。据我们所知,这项工作首次将体素渲染引入到单目三维检测中,并展示了基于隐式重构的图像三维感知的潜力。在 KITTI-3D 基准和 Waymo 开放数据集上进行的大量实验证明了 MonoNeRD 的有效性。代码可在此 URL 上找到。
Aug, 2023