一致性调节的视频生成
使用扩散方法提升图像到视频的视觉一致性,通过引入空时注意力和从低频带噪声初始化的方式,生成高度一致的视频。同时,根据提出的方法进行了自动生成长视频和相机运动控制方面的拓展,并通过 I2V-Bench 进行了评估,结果表明 ConsistI2V 方法的优越性。
Feb, 2024
本研究提出了一种视频生成模型,通过重新设计时域隐变量表示和学习长期一致性并进行长时间分辨率分别为低和高的两阶段训练策略来优化生成视频的时序一致性,所得的模型经过新的基准数据集的测试,取得了良好的效果。
Jun, 2022
利用大规模视频数据集和扩散模型的进展,本研究通过引入多个文本条件,拓展了文本驱动视频生成模型的生成能力,解决了现有模型在生成高保真长视频和针对多文本条件的支持方面的局限性。
Oct, 2023
本文提出了一种利用 3D-VQGAN 和 transformers 生成长视频的方法,并通过 UCF-101、Sky Time-lapse 和 Taichi-HD 数据集的 16 帧视频剪辑进行了验证,同时还展示了结合文本和音频等条件扩展的方法。
Apr, 2022
通过引入 “回溯” 机制和设计长期一致性正则化来提高视频剪辑之间的细粒度场景过渡,以及消除通过噪声预测扩展视频内容时的内容偏移,该研究提出了无需调优的长视频扩散方法,并在单一和多个文本提示条件下进行了广泛的实验验证。
Jun, 2024
论文介绍了一种名为 VideoLCM 的框架,它利用了一致性模型的概念,通过最小步骤高效地合成视频,同时保持高质量。VideoLCM 基于现有的潜在视频扩散模型,并结合了一致性蒸馏技术来训练潜在一致性模型。实验结果表明,VideoLCM 在计算效率、保真度和时间一致性方面的有效性。尤其值得注意的是,VideoLCM 仅需四个采样步骤即可实现高保真度和流畅的视频合成,展示了实时合成的潜力。希望 VideoLCM 能成为后续研究的简单而有效的基准。源代码和模型将公开提供。
Dec, 2023
通过 StreamingT2V 方法,可以实现高质量的长视频生成,该方法采用文本到视频扩散模型并引入条件注意模块,具有一致性和高运动量。
Mar, 2024
使用生成模型合成新数据已成为自动驾驶中解决数据稀缺问题的标准,然而现有方法在提高感知模型方面有效,但我们发现这些方法未能提高端到端自动驾驶模型的规划性能,原因在于生成的视频通常少于 8 帧且空间和时间不一致,为此我们提出了一种基于扩散的长视频生成方法 Delphi,通过跨多视角的共享噪声建模机制提高空间一致性,并引入特征对齐模块实现精确可控性和时间一致性,相比现有方法,我们的方法最多可生成 40 帧的视频而保持一致性,这是现有方法的 5 倍之多,进一步我们通过构建一个失败案例驱动框架,借助预训练视觉语言模型,设计了一种采样策略让 Delphi 生成类似于那些失败案例的新数据,提高了样本效率,广泛的实验证明我们的 Delphi 在驾驶规划中生成更高质量的长视频,首次超越现有最先进的方法,而且仅使用了训练数据集的 4%,我们的框架能够将自动驾驶模型的规划性能提升 25%。
Jun, 2024
通过引入一种新的自我关注计算方式(Consistent Self-Attention),以及引入一种语义空间时间运动预测模块(Semantic Motion Predictor),本文提出了一种名为 StoryDiffusion 的框架,能够生成包含丰富内容的一致图像或视频,用来描述基于文本的故事。
May, 2024