姿态引导扩散模型的一致视图合成
我们提出了一种名为3DiM的扩散模型,用于3D新视图合成,能够将单个输入视图转换为许多视图上的一致且清晰的完成。 3DiM的核心组成部分是姿态条件的图像到图像扩散模型,它以源视图及其姿态作为输入,并将新姿态的视图作为输出生成。
Oct, 2022
使用基于扩散的模型,结合现有的二维扩散骨架和三维特征体,进行三维感知的图像生成,同时具备自回归生成3D一致的序列能力。在合成渲染图像和实际物体上展示了最先进的效果。
Apr, 2023
单视角新视角合成是计算机视觉中一项重要而具有挑战性的任务。本文提出了一种基于条件扩散模型的Light Field Diffusion,通过引入局部像素约束,鼓励更好的多视角一致性,实现高保真图像的生成。
Sep, 2023
通过利用生成模型,将零样本新视点合成问题分为两个阶段,即将观察到的区域转化为新视图和对未见过的区域进行幻觉。为了解决3D一致性问题,本文提出了一种具有几何约束的极线引导注意力和多视图注意力的场景表示方法。通过多个数据集的定性和定量评估,证明了所提出机制在效果上优于现有方法。
Oct, 2023
通过预定制技术在视频帧上微调预训练的RGB-D扩散模型,然后将知识从微调的模型提取到包含动态和静态神经辐射场(NeRF)组件的4D表示中,实现几何一致性并保持场景的一致性,从而进一步推进动态新视角合成。
Jan, 2024
Ctrl123是一种基于封闭循环转录的新颖视图合成扩散方法,它在姿态敏感特征空间中强制生成视角和真实数据的一致性,在NVS和3D重建任务中取得了显著的改进。
Mar, 2024
通过利用预训练的大规模视频扩散模型的强大生成能力,我们提出了NVS-Solver,一种新的无需训练的视图合成(NVS)范例,它能够通过单个或多个静态场景视图或动态场景单目视频实现令人惊叹的视觉体验。在我们的理论模型基础上,我们通过迭代地调制与给定场景先验相对应的得分函数来控制视频扩散过程,并根据视图姿势和扩散步数在自适应方式下实现调制。广泛的评估量化和质量化地证明了我们的NVS-Solver相对于现有方法在静态和动态场景下的显著优势。
May, 2024
本研究解决了现有神经3D重建方法对密集多视图捕获的依赖性,从而限制了其广泛应用的问题。我们提出的ViewCrafter方法利用视频扩散模型的强大生成能力和基于点的表示提供的粗略3D线索,从单张或稀疏图像中合成高保真新视图。此外,我们的迭代视图合成策略和相机轨迹规划算法进一步扩展了新视图的生成范围。实验表明,ViewCrafter在生成高保真且一致的新视图方面具有强大的泛化能力和卓越的性能。
Sep, 2024