ViewFusion: 学习可组合的扩散模型用于新视角合成
通过扩散模型进行新视图合成表现出了出色的潜力,然而这些常见方法中图像生成的独立过程导致在保持多视图一致性方面存在挑战。为了解决这个问题,我们引入了 ViewFusion,这是一种新颖的、无需训练的算法,可以无缝地集成到现有的预先训练好的扩散模型中。我们的方法采用自回归的方式,隐含地利用之前生成的视图作为下一个视图生成过程的上下文,确保在新视图生成过程中具有稳健的多视图一致性。通过通过插值去噪将已知视图信息融合到扩散过程中,我们的框架成功地将单视图条件模型扩展为能在多视图条件设置下工作,无需额外的微调。广泛的实验结果表明 ViewFusion 在生成一致且详细的新视图方面的有效性。
Feb, 2024
使用基于扩散的模型,结合现有的二维扩散骨架和三维特征体,进行三维感知的图像生成,同时具备自回归生成 3D 一致的序列能力。在合成渲染图像和实际物体上展示了最先进的效果。
Apr, 2023
通过预训练的稳定扩散模型,基于个性化文本到图像模型 Dreambooth,我们的研究发现视图概念可以被学习和分离,并通过少量示例迁移到新对象,我们引入了一种名为 FSViewFusion 的学习策略,通过单个场景的一张图像样本来传递视图的知识,通过低秩适配器在少量样本上学习新对象,通过大量实验证明我们的方法能够在野外图像中生成可靠的视图样本。
Mar, 2024
通过预定制技术在视频帧上微调预训练的 RGB-D 扩散模型,然后将知识从微调的模型提取到包含动态和静态神经辐射场(NeRF)组件的 4D 表示中,实现几何一致性并保持场景的一致性,从而进一步推进动态新视角合成。
Jan, 2024
使用少量照片重建现实场景的方法,通过在合成和多视图数据集上训练的扩散先验来对新视角的合成进行规范化,从而在超约束区域综合出逼真的几何和纹理,同时保持观察区域的外观。与以前的少视图 NeRF 重建方法相比,我们在各种真实世界数据集上进行了广泛评估,包括正向和 360 度场景,并展示了显著的性能改进。
Dec, 2023
我们提出了一种简单而有效的框架 Efficient-3DiM,用于学习单张图像的新视角合成器,通过减小训练开销,包括精心设计的时间步长采样策略、更优质的三维特征提取器和增强的训练方案,实现了将总训练时间从 10 天缩短到不到 1 天,并在相同计算平台上(8 个 Nvidia A100 GPU 实例)加速训练过程。我们进行了全面的实验来证明我们提出方法的高效性和广泛适用性。
Oct, 2023
本文提出了一种姿态引导扩散模型来从单张图像中生成一致的、持久的新视角视频,并设计了一个利用极线作为约束的注意力层以促进不同视角之间的关联。实验结果表明,该模型在合成和真实数据集上表现优异,胜过基于 Transformer 和 GAN 的现有方法。
Mar, 2023
单视角新视角合成是计算机视觉中一项重要而具有挑战性的任务。本文提出了一种基于条件扩散模型的 Light Field Diffusion,通过引入局部像素约束,鼓励更好的多视角一致性,实现高保真图像的生成。
Sep, 2023