VideoCrafter1：高质量视频生成的开放扩散模型

Oct, 2023

VideoCrafter1：高质量视频生成的开放扩散模型

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun...

TL;DR视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频，而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。

Abstract

video generation has increasingly gained interest in both academia and industry. Although commercial tools can generate plausible videos, there is a limited number of open-source models available for researchers

video generation diffusion models text-to-video image-to-video open-source models

发现论文，激发创造

I2VGen-XL: 通过级联扩散模型实现高质量图像到视频的合成

提出了 I2VGen-XL 的级联方法，通过将两个因素解耦并利用静态图像作为关键指导，能够同时提高模型的语义准确性、细节的连续性和视频的清晰度。

Nov, 2023

I2V-Adapter: 视频扩散模型的通用图像到视频适配器

在 AI 驱动视频生成领域，本研究通过引入 I2V-Adapter 解决了将静态图像转化为动态视频序列的复杂挑战，保持了 T2I 模型的结构完整性和运动模块，并在保持空间细节的同时降低了可训练参数的需求，这一性能上的突破在创意应用中具备了广泛的适用性。

Dec, 2023

视频电梯：用多功能的文本到图像扩散模型提升视频生成质量

Text-to-video diffusion models still lag behind compared to text-to-image models, so this paper introduces VideoElevator, a training-free and plug-and-play method that improves T2V performance using T2I capabilities, specifically by enhancing temporal consistency and adding photo-realistic details for personalized stylistic video synthesis.

Mar, 2024

Vivid-ZOO: 多视图视频生成与扩散模型

提出了一种基于扩散模型的新方法，从文本生成以动态三维物体为中心的高质量多视图视频，通过将问题分解为视点空间和时间组件，并引入对齐模块来保证生成的多视图视频的一致性和连贯性，同时解决了二维和多视图数据之间的领域差异。

Jun, 2024

VideoCrafter2：克服数据限制以提高视频扩散模型的质量

基于给定提示生成视频的文本到视频生成旨在生成可信的视频。最近，一些商业视频模型能够生成具有最小噪声、出色细节和高美观分数的视频。然而，这些模型依赖于大规模、经过良好过滤、高质量的视频，而这对社区来说是不可获得的。许多现有的研究工作使用低质量的 WebVid-10M 数据集来训练模型，由于模型的优化是为了适应 WebVid-10M，因此很难生成高质量的视频。在这项工作中，我们探索了从稳定扩散中延伸的视频模型的训练方案，并研究了利用低质量视频和合成高质量图像获取高质量视频模型的可行性。我们首先分析视频模型的空间和时域模块与低质量视频的分布偏移之间的关联。我们观察到，与仅训练时域模块相比，所有模块的完整训练会导致空间和时域模块之间更强的耦合。基于这种更强的耦合，我们通过使用高质量图像微调空间模块来将分布向更高质量转移，而不会导致运动退化，从而获得通用的高质量视频模型。评估工作说明了所提方法的优越性，特别是在图片质量、动作和概念组合方面。

Jan, 2024

I2VEdit: 通过图像到视频扩散模型进行首帧引导视频编辑

通过使用预训练的图像到视频模型，我们介绍了一种新颖而通用的方法，将图像编辑工具的适用范围扩展到视频中，通过从单个帧到整个视频的传播编辑来处理全局编辑，局部编辑和适度形状变化，并且通过细粒度的注意力匹配来实现精确的调整，同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能，并证明其能够产生高质量、时间上连续的输出。

May, 2024

TI2V-Zero: 文本到视频扩散模型中的零样本图像调节

提出了 TI2V-Zero：一种无需优化或微调的零样本方法，通过使用预训练的文本到视频扩散模型，使其能够在给定图像的条件下生成实际视频。该方法使用 “重复滑动” 策略来引导视频生成，并提供了一种保持视觉细节的新合成帧初始化和重新采样技术，从而实现视频的逐帧合成。TI2V-Zero 在领域特定和开放领域数据集上的实验证明了其优越性能，并且能够无缝扩展到其他任务和支持长视频生成。

Apr, 2024

图像视频：扩散模型生成高清晰度视频

基于级联的视频扩散模型，Imagen Video 是一种文本有条件的视频生成系统，它使用基础视频生成模型和序列的交错空间和时间视频超分辨率模型生成高清视频。该系统可扩展为高清文本到视频模型，具有高度的可控性和世界知识，包括生成各种艺术风格的多样化视频和文本动画以及 3D 对象理解。

Oct, 2022

AADiff: 音频对齐视频生成与文本到图像扩散

本文介绍了一种新的 T2V 框架，通过引入音频信号来控制时间动态，从而使传统的 T2I 扩散生成可以与音频对齐的视频。我们提出了基于音频的区域编辑和信号平滑方法，以在视频综合的时间灵活性和一致性之间取得良好平衡，并通过实验验证了方法的有效性，并提出了实际应用。

May, 2023

探索预训练的文本到视频传播模型用于视频对象分割

探索了基于预训练的文本到视频 (T2V) 扩散模型产生的视觉表示，在视频理解任务中的应用，通过验证经典的参考视频对象分割 (R-VOS) 任务的假设，介绍了一个名为 “VD-IT” 的新框架，结合了预训练的 T2V 模型，利用文本信息作为条件输入，确保时间上的语义一致性，进一步加入图像标记作为补充文本输入，丰富特征集合以生成详细和细腻的掩码，并且通过大量实验证明，与常用的基于图像 / 视频预训练任务的视频骨干网络（例如 Video Swin Transformer）相比，固定的生成 T2V 扩散模型在保持语义对齐和时间一致性方面具有更好的潜力，在现有的标准基准上，VD-IT 取得了非常有竞争力的结果。

Mar, 2024