视图集扩散:从二维数据生成(0-)图像条件下的三维生成模型
我们提出了一种名为3DiM的扩散模型,用于3D新视图合成,能够将单个输入视图转换为许多视图上的一致且清晰的完成。 3DiM的核心组成部分是姿态条件的图像到图像扩散模型,它以源视图及其姿态作为输入,并将新姿态的视图作为输出生成。
Oct, 2022
本文提出了RenderDiffusion,这是第一个用于3D生成和推断的扩散模型,使用仅有的单眼2D监督进行训练,并采用新颖的图像去噪架构进行中间的三维表示,以提供强烈归纳结构,同时仅需要2D监督。我们在FFHQ、AFHQ、ShapeNet和CLEVR数据集上评估了RenderDiffusion,展示了生成3D场景和从2D图像中推理3D场景的竞争性表现。此外,我们的扩散型方法还使我们能够使用2D修复来编辑3D场景。
Nov, 2022
使用基于扩散的模型,结合现有的二维扩散骨架和三维特征体,进行三维感知的图像生成,同时具备自回归生成3D一致的序列能力。在合成渲染图像和实际物体上展示了最先进的效果。
Apr, 2023
通过引入第一种能够快速进行真实世界三维场景的详细重建和生成的推广模型,我们在本研究中提出了三个贡献:首先,引入了一种新的神经场景表示方法IB-planes,能够有效准确地表示大型三维场景,并在需要时动态分配更多容量以捕捉每张图像中可见的细节;其次,我们提出了一种去噪扩散框架,通过仅使用二维图像而不需要额外的监督信号(如掩码或深度)学习对这种新型三维场景表示的先验知识,从而支持三维重建和生成;第三,我们开发了一种避免将基于图像渲染与扩散模型集成时产生平凡三维解决方案的原则性方法,即通过丢弃某些图像的表示。我们在几个具有挑战性的真实和合成图像数据集上评估了该模型,并在生成、新视图合成和三维重建方面展示了优越的结果。
Feb, 2024
MVD$^2$是一种有效的三维重建方法,通过聚合图像特征并将其解码成三维网格,改善了多视角扩散生成图像的三维生成质量,且在不同的多视角扩散方法下具有快速和稳健的性能。
Feb, 2024
使用稀疏射线采样方法通过关键点监督,实现了在当前管道中显式注入来自检索参考对象的3D先验,以确保高质量和多样化的3D几何,同时保持2D扩散模型的生成质量和多视角一致性。
Mar, 2024
提出一种新颖的图像编辑技术,可以在单幅图像上进行三维操作,如物体旋转和平移。通过使用在广泛的文本-图像对上训练的强大图像扩散模型,实现了生成具有大视角变换、高外观和形状一致性的高质量三维感知图像编辑,突破了单幅图像三维感知编辑的可能性的局限。
Mar, 2024
现有的单图像到3D生成方法通常涉及两个阶段的过程,首先生成多视图图像,然后使用这些图像进行3D重建。然而,分别训练这两个阶段会导致推理阶段的数据偏差,从而影响重建结果的质量。我们引入了一个统一的3D生成框架,命名为Ouroboros3D,它将基于扩散的多视图图像生成和3D重建集成到递归扩散过程中。在我们的框架中,通过自我条件机制联合训练这两个模块,使它们能够适应彼此的特征以进行稳健的推理。在多视图去噪过程中,多视图扩散模型使用由重建模块在上一时间步骤渲染的具有3D感知的地图作为附加条件。具有3D感知反馈的递归扩散框架统一了整个过程并改进了几何一致性。实验证明,我们的框架优于将这两个阶段分离和将它们合并在推理阶段的现有方法。
Jun, 2024
本研究解决了在三维视觉中应用扩散模型的效率和可扩展性问题,尤其是在从二次数据恢复三维场景的准确性挑战。通过对扩散模型的数学原理和架构进展的深入分析,论文阐述了其在三维对象生成、形状补全等任务中的应用。研究的主要发现是,优化计算效率和探索大规模预训练可显著提升三维视觉任务的表现,推动该领域的发展。
Oct, 2024
本研究解决了现有多视角图像扩散模型在3D几何一致性方面的不足。提出的3D适配器模块通过将3D几何意识注入预训练图像扩散模型,显著提升了几何质量。实验证明,3D适配器不仅改善了文本到多视角模型的几何效果,还支持文本到3D、图像到3D等多种任务,展现了其广泛的应用潜力。
Oct, 2024