视频扩散模型
该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架,可在有限的计算预算下生成更真实、更长的视频,同时提供了大规模文本到视频生成的扩展应用。
Nov, 2022
扩散生成模型对于生成和修改连贯、高质量视频的技术已经变得强大,本调查对视频生成中的关键元素进行了系统概述,包括应用、架构选择和时态动力学建模。最近该领域的进展被总结并归类为发展趋势,调查最后总结了尚存的挑战并展望了该领域的未来。
May, 2024
基于给定提示生成视频的文本到视频生成旨在生成可信的视频。最近,一些商业视频模型能够生成具有最小噪声、出色细节和高美观分数的视频。然而,这些模型依赖于大规模、经过良好过滤、高质量的视频,而这对社区来说是不可获得的。许多现有的研究工作使用低质量的 WebVid-10M 数据集来训练模型,由于模型的优化是为了适应 WebVid-10M,因此很难生成高质量的视频。在这项工作中,我们探索了从稳定扩散中延伸的视频模型的训练方案,并研究了利用低质量视频和合成高质量图像获取高质量视频模型的可行性。我们首先分析视频模型的空间和时域模块与低质量视频的分布偏移之间的关联。我们观察到,与仅训练时域模块相比,所有模块的完整训练会导致空间和时域模块之间更强的耦合。基于这种更强的耦合,我们通过使用高质量图像微调空间模块来将分布向更高质量转移,而不会导致运动退化,从而获得通用的高质量视频模型。评估工作说明了所提方法的优越性,特别是在图片质量、动作和概念组合方面。
Jan, 2024
本研究提出了一种基于去噪扩散概率模型的视频建模框架,可在各种真实环境下生成长时间视频,并介绍了一种适用于此目的的架构,可有效比较和优化采样顺序,并对以前采样的帧使用选择性稀疏和长程调节。实验结果表明,在多个数据集上相较于现有工作获得了更好的视频建模,并生成了长达 25 分钟的时间连贯视频。研究还发布了一个基于 CARLA 自动驾驶模拟器生成视频构建数据集和具有语义意义的度量。
May, 2022
该研究提出基于扩散模型的视频生成方法,通过隐式条件建模来模拟运动效果,并提出多种策略来优化生成视频的质量。实验证明,该方法在 FVD 得分和视觉质量方面明显优于现有的以生成对抗网络为基础的方法。
Dec, 2022
我们提出了一种新颖的 4D 生成管道,名为 4Diffusion,旨在从单目视频中生成空间时间一致的 4D 内容。通过将可学习的运动模块与冻结的 3D 感知扩散模型结合,我们设计了一个为多视图视频生成量身定制的统一扩散模型,以捕捉多视图空间时间相关性。通过在精心策划的数据集上训练,我们的扩散模型获得了合理的时间一致性,并固有地保留了 3D 感知扩散模型的泛化性和空间一致性。随后,我们提出了基于我们的多视图视频扩散模型的 4D 感知得分蒸馏采样损失,以优化由动态 NeRF 参数化的 4D 表示,从而消除多个扩散模型引起的差异,实现生成空间时间一致的 4D 内容。此外,我们设计了一个锚点损失,以增强外观细节并促进动态 NeRF 的学习。广泛的定性和定量实验证明,我们的方法相比之前的方法具有更好的性能。
May, 2024
本文提出了一种自回归、端到端优化的视频扩散模型,受到神经视频压缩技术的启发,可用于生成高质量的视频,并提出了可扩展的连续排名概率得分(CRPS)方法,以评估视频的概率预测能力,该方法在自然和仿真视频的多个数据集上比先前方法的感知质量和概率预测有着显著的提高。
Mar, 2022
基于级联的视频扩散模型,Imagen Video 是一种文本有条件的视频生成系统,它使用基础视频生成模型和序列的交错空间和时间视频超分辨率模型生成高清视频。该系统可扩展为高清文本到视频模型,具有高度的可控性和世界知识,包括生成各种艺术风格的多样化视频和文本动画以及 3D 对象理解。
Oct, 2022
使用扩散模型的预测能力,在解码器中将多个神经压缩帧转换为连续的视频帧,以实现极端视频压缩,同时考虑感知质量指标,从低比特率下的位每像素(bpp)为 0.02 开始实现视觉上令人满意的重构,结果表明该方案比 H.264 和 H.265 等标准编解码器在低比特率领域具有更好的效果。
Feb, 2024