SimDA：用于高效视频生成的简易扩散适配器

Aug, 2023

SimDA：用于高效视频生成的简易扩散适配器

SimDA: Simple Diffusion Adapter for Efficient Video Generation

Zhen Xing, Qi Dai, Han Hu, Zuxuan Wu, Yu-Gang Jiang

TL;DR本文提出了一种 Simple Diffusion Adapter (SimDA) 方法，通过微调一个强大的 Text-to-Image (T2I) 模型的 24M 个参数，以高效的方式将其适应于视频生成，并使用轻量级的空间和时间适配器进行转移学习，为了达到视频的一致性还提出了一种新的潜在干扰 Attention (LSA) 方法。此外，我们还使用相似的模型架构训练了一个视频超分辨率模型，以生成高清 (1024x1024) 视频。SimDA 不仅可用于野外的 T2V 生成，还能够在 2 分钟的调整中实现一键视频编辑，以极少的可调参数来减少训练工作量。

Abstract

The recent wave of AI-generated content has witnessed the great development and success of Text-to-Image (T2I) technologies. By contrast, text-to-video (t2v) still falls short of expectations though attracting in

text-to-video t2v simple diffusion adapter transfer learning video generation

发现论文，激发创造

I2V-Adapter: 视频扩散模型的通用图像到视频适配器

在 AI 驱动视频生成领域，本研究通过引入 I2V-Adapter 解决了将静态图像转化为动态视频序列的复杂挑战，保持了 T2I 模型的结构完整性和运动模块，并在保持空间细节的同时降低了可训练参数的需求，这一性能上的突破在创意应用中具备了广泛的适用性。

Dec, 2023

AADiff: 音频对齐视频生成与文本到图像扩散

本文介绍了一种新的 T2V 框架，通过引入音频信号来控制时间动态，从而使传统的 T2I 扩散生成可以与音频对齐的视频。我们提出了基于音频的区域编辑和信号平滑方法，以在视频综合的时间灵活性和一致性之间取得良好平衡，并通过实验验证了方法的有效性，并提出了实际应用。

May, 2023

使用潜变量扩散模型进行高分辨率视频合成的对齐

该研究将 LDM 范例应用于高分辨率视频生成中，利用图像生成器实现视频生成，利用时间维度对视频超分辨率模型进行精细调整，验证其在真实驾驶视频上的表现，且可将 LDM 应用于文本到视频模型中。

Apr, 2023

VideoCrafter1：高质量视频生成的开放扩散模型

视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频，而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。

Oct, 2023

SAVE: 基于光谱转换感知的图像扩散模型适应于文本引导下的视频编辑

提出了一种新的针对文本到视频合成的迁移框架，称为 SAVE，其中将预训练模型的谱值进行微调以达到适应新任务的目的，该方法大大减少了调整模型所需的计算时间且更适合实际的视频编辑应用。

May, 2023

AID：适应图像到视频扩散模型用于指导视频预测

基于文本和初始帧，我们引入多模态大型语言模型 (MLLM) 来预测未来的视频状态。通过设计双查询 Transformer (DQFormer) 架构，并利用长短期时间适配器和空间适配器来快速转换通用视频扩散模型，我们的方法在四个数据集上明显优于现有技术，证明了其在不同领域的有效性。

Jun, 2024

Vivid-ZOO: 多视图视频生成与扩散模型

提出了一种基于扩散模型的新方法，从文本生成以动态三维物体为中心的高质量多视图视频，通过将问题分解为视点空间和时间组件，并引入对齐模块来保证生成的多视图视频的一致性和连贯性，同时解决了二维和多视图数据之间的领域差异。

Jun, 2024

文本到视频生成的层次化时空解耦

提出了 HiGen，一种基于扩散模型的方法，通过从结构层面和内容层面解耦视频的空间和时间因素，实现了在生成视频时具备语义准确性和运动稳定性的方法。

Dec, 2023

信息丰富的扩散模型的段落到图像生成

介绍了一种信息丰富的扩散模型，名为 ParaDiffusion，用于段落到图像生成任务，通过利用大型语言模型来提升图像生成模型的语义理解能力，并在长文本语义对齐训练方面取得了优异结果。

Nov, 2023

视频电梯：用多功能的文本到图像扩散模型提升视频生成质量

Text-to-video diffusion models still lag behind compared to text-to-image models, so this paper introduces VideoElevator, a training-free and plug-and-play method that improves T2V performance using T2I capabilities, specifically by enhancing temporal consistency and adding photo-realistic details for personalized stylistic video synthesis.

Mar, 2024