MVDD:多视角深度扩散模型
通过引入情景表示变换器和视图条件扩散模型,该论文提出了一个通用框架,用于从单个图像生成一致的多视图图像。通过多视图注意力和极线几何约束来确保三维一致性,该模型能够从仅一个图像输入生成超过基准方法在评估指标(包括 PSNR、SSIM 和 LPIPS)方面的三维网格。
May, 2024
我们提出 MVDream,这是一个多视图扩散模型,能够根据给定的文本提示生成几何一致的多视图图像。通过利用在大规模 Web 数据集上预训练的图像扩散模型和从 3D 资源渲染的多视图数据集,所得到的多视图扩散模型可以实现 2D 扩散的概括性和 3D 数据的一致性。该模型可以被应用为 3D 生成的多视图先验,通过 Score Distillation Sampling 来解决现有 2D-lifting 方法中的 3D 一致性问题,从而极大地提高了稳定性。最后,我们展示了多视图扩散模型也可以在少量样本设置下进行微调,用于个性化的 3D 生成,即 DreamBooth3D 应用中,在学习主体身份之后可以保持一致性。
Aug, 2023
通过对多视角一致的 RGB-D 图像进行生成建模,我们提出了 MVD-Fusion:一种用于通过单视角推理 3D 的方法。
Apr, 2024
MVD$^2$ 是一种有效的三维重建方法,通过聚合图像特征并将其解码成三维网格,改善了多视角扩散生成图像的三维生成质量,且在不同的多视角扩散方法下具有快速和稳健的性能。
Feb, 2024
本研究提出了一种名为 MVDiffusion++ 的神经架构,用于 3D 物体重建,通过一张或几张图像生成物体的密集高分辨率视图。MVDiffusion++ 采用了两个令人惊讶地简单的想法,即 “无姿态架构”,其中 2D 潜在特征之间的标准自注意力学习了在任意数量的条件和生成视图之间的 3D 一致性,而无需明确使用相机姿态信息,并且 “视图丢弃策略” 在训练期间丢弃了大量输出视图,减少了训练时的内存占用,并且在测试时实现了密集高分辨率视图合成。我们使用 Objaverse 进行训练并使用 Google 扫描的物体进行评估,采用了标准的新视图合成和 3D 重建度量,其中 MVDiffusion++ 显著优于当前的技术水平。我们还通过将 MVDiffusion++ 与文本到图像生成模型相结合,展示了一个文本到 3D 的应用示例。
Feb, 2024
我们提出了一种新颖的 3D 生成方法 DMV3D,该方法使用基于变压器的 3D 大型重建模型对多视差扩散进行去噪。我们的重建模型采用了三平面 NeRF 表示,并且可以通过 NeRF 重建和渲染对嘈杂的多视差图像进行去噪,能在单个 A100 GPU 上实现约 30 秒的单阶段 3D 生成。我们使用大规模多视差图像数据集训练 DMV3D,仅使用图像重建损失,而不访问 3D 资产。我们展示了在需要对未见过的物体部分进行概率建模以生成具有清晰纹理的多样重建的单图像重建问题上的最新成果,以及优于以往的 3D 扩散模型的高质量文本到 3D 生成结果。我们的项目网站位于此 https URL。
Nov, 2023
本文提出了一种新的扩散模型 GD-VDM 用于视频生成,通过在生成深度视频和扩散 Vid2Vid 模型之间的两个阶段进行,能够生成更加多样化、复杂的场景。
Jun, 2023
本文提出了一种利用 Volumetric Probability Distribution 及 Markov chain 的深度估计任务多步分布逼近过程的方法,并在 MVS 和 SSC 方面取得了最新的研究成果。
Jun, 2023
MVEdit 是一个高度灵活和可扩展的框架,结合了多视角扩散和祖先采样技术,在只需 2-5 分钟的推理时间内实现了在质量和速度之间更好的平衡,对于开放领域的 3D 对象合成,多视角扩散以及高质量贴图生成等应用具有具有最先进性能的评估结果。
Mar, 2024
基于视频扩散模型和几何一致性先验的自动生成方法在 3D 生成方面取得了很大突破,能够生成高质量的网格和 3D 高斯帧,并且在场景级别的新视角合成方面取得了优越的性能表现。
Mar, 2024