使用3D感知扩散模型实现生成新视图综合
我们提出了一种名为3DiM的扩散模型,用于3D新视图合成,能够将单个输入视图转换为许多视图上的一致且清晰的完成。 3DiM的核心组成部分是姿态条件的图像到图像扩散模型,它以源视图及其姿态作为输入,并将新姿态的视图作为输出生成。
Oct, 2022
本文提出了RenderDiffusion,这是第一个用于3D生成和推断的扩散模型,使用仅有的单眼2D监督进行训练,并采用新颖的图像去噪架构进行中间的三维表示,以提供强烈归纳结构,同时仅需要2D监督。我们在FFHQ、AFHQ、ShapeNet和CLEVR数据集上评估了RenderDiffusion,展示了生成3D场景和从2D图像中推理3D场景的竞争性表现。此外,我们的扩散型方法还使我们能够使用2D修复来编辑3D场景。
Nov, 2022
借助Viewset Diffusion框架,可以从2D数据中训练图像条件化的3D生成模型,从而解决单视图3D重建中的歧义问题,并通过对多视图图像集的去噪扩展了3D真实数据的可用性,通过仅渲染3张图片,我们的模型可以执行3D生成和单视图重建。
Jun, 2023
单视角新视角合成是计算机视觉中一项重要而具有挑战性的任务。本文提出了一种基于条件扩散模型的Light Field Diffusion,通过引入局部像素约束,鼓励更好的多视角一致性,实现高保真图像的生成。
Sep, 2023
通过利用生成模型,将零样本新视点合成问题分为两个阶段,即将观察到的区域转化为新视图和对未见过的区域进行幻觉。为了解决3D一致性问题,本文提出了一种具有几何约束的极线引导注意力和多视图注意力的场景表示方法。通过多个数据集的定性和定量评估,证明了所提出机制在效果上优于现有方法。
Oct, 2023
通过引入第一种能够快速进行真实世界三维场景的详细重建和生成的推广模型,我们在本研究中提出了三个贡献:首先,引入了一种新的神经场景表示方法IB-planes,能够有效准确地表示大型三维场景,并在需要时动态分配更多容量以捕捉每张图像中可见的细节;其次,我们提出了一种去噪扩散框架,通过仅使用二维图像而不需要额外的监督信号(如掩码或深度)学习对这种新型三维场景表示的先验知识,从而支持三维重建和生成;第三,我们开发了一种避免将基于图像渲染与扩散模型集成时产生平凡三维解决方案的原则性方法,即通过丢弃某些图像的表示。我们在几个具有挑战性的真实和合成图像数据集上评估了该模型,并在生成、新视图合成和三维重建方面展示了优越的结果。
Feb, 2024
本研究解决了现有神经3D重建方法对密集多视图捕获的依赖性,从而限制了其广泛应用的问题。我们提出的ViewCrafter方法利用视频扩散模型的强大生成能力和基于点的表示提供的粗略3D线索,从单张或稀疏图像中合成高保真新视图。此外,我们的迭代视图合成策略和相机轨迹规划算法进一步扩展了新视图的生成范围。实验表明,ViewCrafter在生成高保真且一致的新视图方面具有强大的泛化能力和卓越的性能。
Sep, 2024
本研究提出了一种新颖的潜在扩散模型LT3SD,旨在解决现有三维场景生成方法在空间范围和质量上的局限。我们引入潜在树表示法,有效编码不同频率的几何和细节,从而提高生成复杂多样的三维场景的能力。实验表明,LT3SD在大规模、高质量的无条件三维场景生成及部分场景观察的概率补全方面具有明显优势。
Sep, 2024
本研究解决了现有多视角图像扩散模型在3D几何一致性方面的不足。提出的3D适配器模块通过将3D几何意识注入预训练图像扩散模型,显著提升了几何质量。实验证明,3D适配器不仅改善了文本到多视角模型的几何效果,还支持文本到3D、图像到3D等多种任务,展现了其广泛的应用潜力。
Oct, 2024