从单一视频流在线连续学习视频扩散模型
我们提出了一种名为在线视频编辑的新任务,旨在在保持时间一致性的同时编辑流式帧。我们提出了 Streaming Video Diffusion(SVDiff)来解决此问题,它将紧凑的空间感知时间回归与现成的稳定扩散相结合,并采用分段级方案在大规模长视频上进行训练。通过这种简单而有效的设置,我们可以获得一个能够执行各种视频并具有时序连续性的单一模型。我们的实验表明,我们的模型能够以 512x512 的分辨率实现 15.2 FPS 的实时推理速度,对于长时间、高质量的视频编辑表现出色。
May, 2024
本研究通过提出扩展图像扩散结构的扩散模型,使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频,并引入一种更好的有条件采样技术,得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。
Apr, 2022
本研究提出了一种基于去噪扩散概率模型的视频建模框架,可在各种真实环境下生成长时间视频,并介绍了一种适用于此目的的架构,可有效比较和优化采样顺序,并对以前采样的帧使用选择性稀疏和长程调节。实验结果表明,在多个数据集上相较于现有工作获得了更好的视频建模,并生成了长达 25 分钟的时间连贯视频。研究还发布了一个基于 CARLA 自动驾驶模拟器生成视频构建数据集和具有语义意义的度量。
May, 2022
本论文提出了一种利用预训练视频扩散模型构建可扩展的 3D 生成模型的新范例。通过使用视频扩散模型作为 3D 数据的知识源,通过微调其多视图生成能力,生成一个大规模的合成多视图数据集,从而训练出一个前馈的 3D 生成模型。该模型在近 300 万个合成多视图数据上训练,能够在几秒钟内从单张图像生成一个 3D 资源,并在与当前最先进的前馈 3D 生成模型相比取得了更好的性能,用户 70%的时间更喜欢我们的结果。
Mar, 2024
该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架,可在有限的计算预算下生成更真实、更长的视频,同时提供了大规模文本到视频生成的扩展应用。
Nov, 2022
本文提出了一种自回归、端到端优化的视频扩散模型,受到神经视频压缩技术的启发,可用于生成高质量的视频,并提出了可扩展的连续排名概率得分(CRPS)方法,以评估视频的概率预测能力,该方法在自然和仿真视频的多个数据集上比先前方法的感知质量和概率预测有着显著的提高。
Mar, 2022
本研究评估扩散模型的连续学习特性,通过给 Denoising Diffusion Probabilistic Models (DDPMs)应用经验重放,发现一定程度的遗忘可以被减少,但在扩散步数上,其表现多种多样。同时揭示使用 bits-per-dimension 指标评估 CL 时的某些问题。
Mar, 2023
基于给定提示生成视频的文本到视频生成旨在生成可信的视频。最近,一些商业视频模型能够生成具有最小噪声、出色细节和高美观分数的视频。然而,这些模型依赖于大规模、经过良好过滤、高质量的视频,而这对社区来说是不可获得的。许多现有的研究工作使用低质量的 WebVid-10M 数据集来训练模型,由于模型的优化是为了适应 WebVid-10M,因此很难生成高质量的视频。在这项工作中,我们探索了从稳定扩散中延伸的视频模型的训练方案,并研究了利用低质量视频和合成高质量图像获取高质量视频模型的可行性。我们首先分析视频模型的空间和时域模块与低质量视频的分布偏移之间的关联。我们观察到,与仅训练时域模块相比,所有模块的完整训练会导致空间和时域模块之间更强的耦合。基于这种更强的耦合,我们通过使用高质量图像微调空间模块来将分布向更高质量转移,而不会导致运动退化,从而获得通用的高质量视频模型。评估工作说明了所提方法的优越性,特别是在图片质量、动作和概念组合方面。
Jan, 2024
近期 AI 生成内容 (AIGC) 的浪潮在计算机视觉领域取得了巨大的成功,其中扩散模型在这一成就中发挥了至关重要的作用。本文在 AIGC 时代提供了对视频扩散模型的全面回顾,包括视频生成、视频编辑和其他视频理解任务的研究概述,并讨论了该领域面临的挑战以及未来的发展趋势。
Oct, 2023