DPA-Net: 通过可区分的原始装配从稀疏视角实现的结构化 3D 抽象

Apr, 2024

DPA-Net: 通过可区分的原始装配从稀疏视角实现的结构化 3D 抽象

DPA-Net: Structured 3D Abstraction from Sparse Views via Differentiable Primitive Assembly

Fenggen Yu, Yimin Qian, Xu Zhang, Francisca Gil-Ureta, Brian Jackson...

TL;DR通过可微分的渲染框架，在不需要 3D 监督的情况下，从稀疏的 RGB 图像中学习结构化的三维抽象，以原始组件的形式捕获三维物体，并且通过引入差异化的原始装配，输出三维占据场作为密度预测的替代，以提高精度和紧凑性。

Abstract

We present a differentiable rendering framework to learn structured 3D abstractions in the form of primitive assemblies from sparse RGB images capturing a →

differentiable rendering framework primitive assemblies 3d object nerf abstraction loss

发现论文，激发创造

稀疏多视图图像抓取的深度 3D 捕获：几何和反射

本研究提出了一种基于多视角立体网络、光谱反射率、深度学习的方法，旨在从六幅图像中重建物体的高质量几何结构和空间变化的 BRDF，通过最小化光度误差优化多视角反射率网络的潜在空间，成功地实现了从稀疏数据中重建出高质量的物体，进而渲染出真实的图像。

Mar, 2020

Sparse3D：基于稀疏视角的多视点一致性扩散物体重建

Sparse3D 是一种针对稀疏视角输入的新型三维重建方法，通过从强大的图像扩散模型提取 2D 先验，使得我们的综合模型在面对开放世界对象时仍能始终保持高质量的结果，并借助 C-SDS 技术来增强细节，实验证明了我们的方法在 NVS 和几何重建方面优于之前的最先进工作。

Aug, 2023

幕后之王：用密度场进行单视角重建

该研究提出使用隐式密度场而非神经辐射场作为图像的几何场景表示，通过自监督训练神经网络能够在单个前向传递中预测该场景表示，并且可以在深度预测和新视角合成方面进行体积渲染。实验表明，该方法能够预测出输入图像中遮挡区域的有意义几何信息。

Jan, 2023

未知姿态下的多视角到 3D 的生成性提升：将 NeRF 包装在扩散中

我们将来自未知姿态的多视图重建问题作为一个生成建模问题。通过一组未标注的场景的 2D 图像，我们的方法同时学习了一个网络来预测从 2D 图像输入中的相机姿态，并学习了用于 3D 场景的神经辐射场（NeRF）的参数。通过在标准去噪目标下使用去噪扩散概率模型（DDPM）将姿态预测网络和 NeRF 结合在一起并训练系统来推动学习进展。我们的框架要求系统通过预测图像的姿态并渲染 NeRF 来完成去噪输入 2D 图像的任务。学习去噪因此迫使系统同时学习底层的 3D NeRF 表示和从图像到摄像机外参数的映射。为了促进后者，我们设计了一个自定义的网络架构来将姿态表示为一个分布，从而在仅进行去噪训练时具备发现视图对应关系的隐式能力。这种技术允许我们的系统成功构建 NeRFs，并在竞争方法失败的具有挑战性的场景中使用。在训练结束时，我们学习到的 NeRF 可以被提取并用作 3D 场景模型；我们的完整系统可以用于采样新的相机姿态并生成新的视角图像。

Jun, 2024

DM-NeRF：从 2D 图像中分解和操作 3D 场景几何形状

本研究利用迄今为止最新的神经辐射场技术，通过引入物体场组件从 2D 视野中学习 3D 空间中所有个体物体的独特代码，并引入反向查询算法以自由地操作学习场景表示中特定的 3D 物体形状，进而解决物体碰撞和视觉遮挡等关键问题，能够准确地从 2D 视野中分解和操作 3D 场景的研究方法被称为 DM-NeRF。

Aug, 2022

基于神经渲染的自动驾驶城市场景重建

利用多模态数据结合深度学习模型进行密集三维重建，从而提高自动驾驶中的标注验证、数据扩充、缺失 LiDAR 系统的地面真值注释以及自动标记准确性的应用效果。

Feb, 2024

神经体积：从图像中学习动态可渲染的体积

通过学习，我们提出了一种表示动态物体的方法，该方法由编码器 - 解码器网络和可微分的射线行进操作组成，它不需要明确重建或跟踪物体，使用了 3D 体积表示法，表现出更好的图像质量，为高分辨率应用提供了一种从表面到体积的方法

Jun, 2019

Hyper-VolTran：基于超网络的快速且通用的一次性图像到 3D 物体结构转换

从单一视角解决图像到三维的问题是一个不适定问题，现有的神经重建方法依靠场景特定的优化限制其泛化能力。为了克服现有方法在泛化和一致性方面的局限性，我们引入了一种新颖的神经渲染技术。我们的方法通过几何编码体积和超网络，采用有符号距离函数作为表面表示，并从生成的多视图输入构建神经编码体积，在测试时根据输入图像调整 SDF 网络的权重，通过超网络以前馈方式实现对新场景的模型适应。为了减轻合成视图产生的伪影，我们提出了一个体素变换模块来改善图像特征的聚合，而不是单独处理每个视点。通过我们提出的 Hyper-VolTran 方法，我们避免了场景特定优化的瓶颈，并保持从多个视点生成的图像的一致性。我们的实验证明了我们提出的方法的优越性，具有一致的结果和快速生成。

Dec, 2023

稠密三维物体重建的高效点云生成学习

本文提出了一种新的 3D 生成建模框架，使用 2D 卷积运算从多个视角预测 3D 结构，并联合应用几何推理和 2D 投影优化来高效地生成以密集点云形式呈现的物体形状，并引入伪渲染器来合成优化的新深度图，在单张图像 3D 对象重建任务中表现了优越的形状相似性和预测密度。

Jun, 2017

基于 RGB-D 的浓密体辐射场的建图和跟踪

基于 NeRFs 的成功，近年来在新颖视角合成领域取得了显著进展。然而，虽然视图合成模型在视觉上看起来很真实，但其底层的 3D 模型通常是错误的，这限制了它们在实际应用中的有效性。本技术报告介绍了视图合成模型和 3D 重建模型之间的关键区别，并指出了使用深度传感器进行准确几何建模的重要性。通过扩展 Plenoxel 辐射场模型，我们对基于 RGB-D 数据的辐射场密集建图和跟踪任务提出了一种分析微分方法，实现了优于竞争神经网络方法的最新成果，并具有更快的速度。

Jul, 2023