单目视频的动态视图合成的扩散先验
该研究提出了一种基于神经隐式表示及不可导函数的算法,能够从动态场景中的单目视频中生成任意视角和任意输入时间步长下的新视图;通过联合训练一个不变的静态 NeRF 和一个时间变化的动态 NeRF,以及使用正则化约束的方式解决了样本不足的问题,其在大量数据和质量实验效果上获得了良好的表现。
May, 2021
我们提出了一种新颖的 4D 生成管道,名为 4Diffusion,旨在从单目视频中生成空间时间一致的 4D 内容。通过将可学习的运动模块与冻结的 3D 感知扩散模型结合,我们设计了一个为多视图视频生成量身定制的统一扩散模型,以捕捉多视图空间时间相关性。通过在精心策划的数据集上训练,我们的扩散模型获得了合理的时间一致性,并固有地保留了 3D 感知扩散模型的泛化性和空间一致性。随后,我们提出了基于我们的多视图视频扩散模型的 4D 感知得分蒸馏采样损失,以优化由动态 NeRF 参数化的 4D 表示,从而消除多个扩散模型引起的差异,实现生成空间时间一致的 4D 内容。此外,我们设计了一个锚点损失,以增强外观细节并促进动态 NeRF 的学习。广泛的定性和定量实验证明,我们的方法相比之前的方法具有更好的性能。
May, 2024
本篇论文提出一种基于体积图像渲染的新方法,通过汇集场景相邻视野的特征,以动态场景感知的方式合成新视点,从而在长视频中合成具有真实感的新视图,能够更好地应对复杂的场景动力学和不受限约束的相机轨迹。
Nov, 2022
本文提出了一种姿态引导扩散模型来从单张图像中生成一致的、持久的新视角视频,并设计了一个利用极线作为约束的注意力层以促进不同视角之间的关联。实验结果表明,该模型在合成和真实数据集上表现优异,胜过基于 Transformer 和 GAN 的现有方法。
Mar, 2023
通过深度学习,本研究提出了一种新颖的视角合成方法 ViewFusion,其以端到端的生成方式灵活地综合多个输入视角,消除噪声并生成高质量的视角,相较于现有方法具有更好的泛化性能和适用性。
Feb, 2024
使用少量照片重建现实场景的方法,通过在合成和多视图数据集上训练的扩散先验来对新视角的合成进行规范化,从而在超约束区域综合出逼真的几何和纹理,同时保持观察区域的外观。与以前的少视图 NeRF 重建方法相比,我们在各种真实世界数据集上进行了广泛评估,包括正向和 360 度场景,并展示了显著的性能改进。
Dec, 2023
提出了一种新的 3D 视频合成方法,使用神经辐射场表示动态实景,并使用一种紧凑的表现方式,能够高质量地合成视图和插值运动,其动态场景建模方法在视角合成和动态场景表示方面都表现良好。
Mar, 2021