Carve3D:基于强化学习微调的扩散模型多视图重建一致性的改进
我们提出了一种名为3DiM的扩散模型,用于3D新视图合成,能够将单个输入视图转换为许多视图上的一致且清晰的完成。 3DiM的核心组成部分是姿态条件的图像到图像扩散模型,它以源视图及其姿态作为输入,并将新姿态的视图作为输出生成。
Oct, 2022
提出NeRDi——一种基于2D扩散模型通用图像先验的单视角NeRF综合框架,借助自然语言模型引导扩散模型进行图像合成,结合估算的深度图的几何约束,优化重建的NeRF表示,进而实现高质量的全景图像生成。
Dec, 2022
本文提出了一种称为SSDNeRF的新方法,它使用表达能力强的Diffusion Model从多视图图像中学习神经辐射场(NeRF)的可推广先验,实现3D重建和先验学习的同时, 证明了该方法在无条件生成和单/稀疏视图3D重建等任务上具有与任务特定方法媲美或优于其的鲁棒性结果。
Apr, 2023
借助Viewset Diffusion框架,可以从2D数据中训练图像条件化的3D生成模型,从而解决单视图3D重建中的歧义问题,并通过对多视图图像集的去噪扩展了3D真实数据的可用性,通过仅渲染3张图片,我们的模型可以执行3D生成和单视图重建。
Jun, 2023
Sparse3D是一种针对稀疏视角输入的新型三维重建方法,通过从强大的图像扩散模型提取2D先验,使得我们的综合模型在面对开放世界对象时仍能始终保持高质量的结果,并借助C-SDS技术来增强细节,实验证明了我们的方法在NVS和几何重建方面优于之前的最先进工作。
Aug, 2023
通过将2D扩散模型中的几何先验与定义良好的3D形状进行对齐,我们提高了一致性,解决了多视角不一致问题,并获得了新的最先进性能,85%以上的一致性率,远高于以前的方法。
Oct, 2023
我们提出了一种新颖的3D生成方法DMV3D,该方法使用基于变压器的3D大型重建模型对多视差扩散进行去噪。我们的重建模型采用了三平面NeRF表示,并且可以通过NeRF重建和渲染对嘈杂的多视差图像进行去噪,能在单个A100 GPU上实现约30秒的单阶段3D生成。我们使用大规模多视差图像数据集训练DMV3D,仅使用图像重建损失,而不访问3D资产。我们展示了在需要对未见过的物体部分进行概率建模以生成具有清晰纹理的多样重建的单图像重建问题上的最新成果,以及优于以往的3D扩散模型的高质量文本到3D生成结果。我们的项目网站位于此https URL。
Nov, 2023
通过将预训练的二维扩散模型引入神经光辐射场(NeRFs),文本到三维生成方法取得了巨大的进展,其中许多最先进的方法通常使用得分蒸馏采样(SDS)来优化NeRF表示,该方法通过预训练的文本条件的二维扩散模型(例如ImData)监督NeRF优化。然而,由这种预训练扩散模型提供的监督信号仅依赖于文本提示,并不限制多视角一致性。为了将跨视角一致性引入扩散先验中,一些最近的工作通过多视角数据微调二维扩散模型,但仍缺乏细粒度的视图连贯性。为了解决这个挑战,我们将多视角图像条件纳入NeRF优化的监督信号中,明确强制执行细粒度的视图一致性。通过这种更强的监督,我们提出的文本到三维方法有效地减轻了由于过高密度而产生的浮动点和由于密度不足而形成的完全空白空间。我们在T$^3$Bench数据集上的定量评估表明,我们的方法在现有的文本到三维方法中达到了最先进的性能。我们将公开发布代码。
Dec, 2023
本研究解决了现有多视角图像扩散模型在3D几何一致性方面的不足。提出的3D适配器模块通过将3D几何意识注入预训练图像扩散模型,显著提升了几何质量。实验证明,3D适配器不仅改善了文本到多视角模型的几何效果,还支持文本到3D、图像到3D等多种任务,展现了其广泛的应用潜力。
Oct, 2024