ViVid-1-to-3:带视频扩散模型的新视角合成
使用基于扩散的模型,结合现有的二维扩散骨架和三维特征体,进行三维感知的图像生成,同时具备自回归生成 3D 一致的序列能力。在合成渲染图像和实际物体上展示了最先进的效果。
Apr, 2023
本文提出了一种姿态引导扩散模型来从单张图像中生成一致的、持久的新视角视频,并设计了一个利用极线作为约束的注意力层以促进不同视角之间的关联。实验结果表明,该模型在合成和真实数据集上表现优异,胜过基于 Transformer 和 GAN 的现有方法。
Mar, 2023
我们提出了 Stable Video 3D (SV3D) - 一种用于高分辨率的围绕 3D 对象进行图像到多视图生成的潜在视频扩散模型。
Mar, 2024
通过预定制技术在视频帧上微调预训练的 RGB-D 扩散模型,然后将知识从微调的模型提取到包含动态和静态神经辐射场(NeRF)组件的 4D 表示中,实现几何一致性并保持场景的一致性,从而进一步推进动态新视角合成。
Jan, 2024
我们提出了一种简单而有效的框架 Efficient-3DiM,用于学习单张图像的新视角合成器,通过减小训练开销,包括精心设计的时间步长采样策略、更优质的三维特征提取器和增强的训练方案,实现了将总训练时间从 10 天缩短到不到 1 天,并在相同计算平台上(8 个 Nvidia A100 GPU 实例)加速训练过程。我们进行了全面的实验来证明我们提出方法的高效性和广泛适用性。
Oct, 2023
该研究讨论了计算机视觉中的一个前沿课题,3D 视频生成,以生成场景的时变 3D 表示为目标。通过提出 Vid3D 模型,研究表明可以通过生成视频的二维 “种子” 和独立生成每个时间步的三维表示,来实现高质量的动态 3D 场景生成,从而不再需要显式建模多视角一致性或三维时间动态,为此任务提供更简单的生成算法。
Jun, 2024
我们提出了一种名为 3DiM 的扩散模型,用于 3D 新视图合成,能够将单个输入视图转换为许多视图上的一致且清晰的完成。 3DiM 的核心组成部分是姿态条件的图像到图像扩散模型,它以源视图及其姿态作为输入,并将新姿态的视图作为输出生成。
Oct, 2022
通过扩散模型进行新视图合成表现出了出色的潜力,然而这些常见方法中图像生成的独立过程导致在保持多视图一致性方面存在挑战。为了解决这个问题,我们引入了 ViewFusion,这是一种新颖的、无需训练的算法,可以无缝地集成到现有的预先训练好的扩散模型中。我们的方法采用自回归的方式,隐含地利用之前生成的视图作为下一个视图生成过程的上下文,确保在新视图生成过程中具有稳健的多视图一致性。通过通过插值去噪将已知视图信息融合到扩散过程中,我们的框架成功地将单视图条件模型扩展为能在多视图条件设置下工作,无需额外的微调。广泛的实验结果表明 ViewFusion 在生成一致且详细的新视图方面的有效性。
Feb, 2024
通过利用预训练的大规模视频扩散模型的强大生成能力,我们提出了 NVS-Solver,一种新的无需训练的视图合成(NVS)范例,它能够通过单个或多个静态场景视图或动态场景单目视频实现令人惊叹的视觉体验。在我们的理论模型基础上,我们通过迭代地调制与给定场景先验相对应的得分函数来控制视频扩散过程,并根据视图姿势和扩散步数在自适应方式下实现调制。广泛的评估量化和质量化地证明了我们的 NVS-Solver 相对于现有方法在静态和动态场景下的显著优势。
May, 2024