iNVS:借用扩散修复算法实现新视角生成
本文介绍了一种新颖的方法,通过将 2D 扩散模型提炼为学习的 3D 场景表示(例如 NeRF),对给定的有掩模的多视图图像进行 3D 区域修补。
Dec, 2023
我们引入了一个三维感知扩散模型 ZeroNVS,用于野外场景下的单图像新视图合成。通过训练一种生成式先验模型来处理多物体场景和复杂背景带来的挑战,提出了新的技术。我们还提出了一种新颖的相机条件参数化和归一化方案,以解决深度尺度的二义性问题。此外,我们注意到 Score Distillation Sampling(SDS)在蒸馏 360 度场景时倾向于截断复杂背景的分布,并提出了 “SDS anchoring” 以改善合成新视图的多样性。我们的模型在 DTU 数据集的零样本设置中取得了新的 LPIPS 优势,甚至优于专门在 DTU 上训练的方法。我们进一步将具有挑战性的 Mip-NeRF 360 数据集调整为单图像新视图合成的新基准,并在该设置中展现出强大的性能。我们的代码和数据位于此 http URL。
Oct, 2023
本文提出了 RenderDiffusion,这是第一个用于 3D 生成和推断的扩散模型,使用仅有的单眼 2D 监督进行训练,并采用新颖的图像去噪架构进行中间的三维表示,以提供强烈归纳结构,同时仅需要 2D 监督。我们在 FFHQ、AFHQ、ShapeNet 和 CLEVR 数据集上评估了 RenderDiffusion,展示了生成 3D 场景和从 2D 图像中推理 3D 场景的竞争性表现。此外,我们的扩散型方法还使我们能够使用 2D 修复来编辑 3D 场景。
Nov, 2022
我们提出了一种简单而有效的框架 Efficient-3DiM,用于学习单张图像的新视角合成器,通过减小训练开销,包括精心设计的时间步长采样策略、更优质的三维特征提取器和增强的训练方案,实现了将总训练时间从 10 天缩短到不到 1 天,并在相同计算平台上(8 个 Nvidia A100 GPU 实例)加速训练过程。我们进行了全面的实验来证明我们提出方法的高效性和广泛适用性。
Oct, 2023
提出了一种名为 MVIP-NeRF 的新方法,通过使用扩散先验来进行 NeRF 修复,解决了外观和几何方面的问题,实现了多视图共同修复和对齐。实验证明,与先前的 NeRF 修复方法相比,该方法在外观和几何恢复方面效果更好。
May, 2024
这篇研究提出了一种名为 Free3D 的简单方法,用于通过单张图像进行开放集合的新视角合成。使用编码目标相机姿势的新的像素级射线调节归一化(RCN)层,改进了目标相机姿势的建模。同时通过轻量级多视图注意力层和多视图噪声共享提高了多视图一致性。我们在 Objaverse 数据集上训练了 Free3D,并在几个新数据集中展示了其卓越的泛化性能。希望我们的简单而有效的方法能够作为一个坚实的基准,并有助于未来关于新视角合成更精确的研究。
Dec, 2023
提出了 MultiDiff 方法,它是一种用于从单个 RGB 图像一致地合成新视角的新方法,通过引入单目深度预测器和视频扩散模型作为强先验条件,实现了高质量和多视角一致的结果。
Jun, 2024
本文提出了一种从单个 RGBD 输入合成新视角图像的方法,通过利用 RGBD 图像中嵌入的深度信息,将 NVS 任务转换成图像转换问题,并使用生成对抗网络实现类似于从新视角拍摄的照片的结果,而不受传统多图像技术的限制。
Nov, 2023
通过利用预训练的大规模视频扩散模型的强大生成能力,我们提出了 NVS-Solver,一种新的无需训练的视图合成(NVS)范例,它能够通过单个或多个静态场景视图或动态场景单目视频实现令人惊叹的视觉体验。在我们的理论模型基础上,我们通过迭代地调制与给定场景先验相对应的得分函数来控制视频扩散过程,并根据视图姿势和扩散步数在自适应方式下实现调制。广泛的评估量化和质量化地证明了我们的 NVS-Solver 相对于现有方法在静态和动态场景下的显著优势。
May, 2024