Fairy: 快速并行指导视频到视频合成

Dec, 2023

Fairy: 快速并行指导视频到视频合成

Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis

Bichen Wu, Ching-Yao Chuang, Xiaoyan Wang, Yichen Jia, Kapil Krishnakumar...

TL;DR本文介绍了 Fairy，这是一种最简化但稳健的图像编辑扩散模型的改进，为视频编辑应用提供增强。我们的方法集中在基于锚点的跨帧注意力的概念上，这种机制隐式地在帧之间传播扩散特征，从而确保更好的时间相干性和高保真合成。Fairy 不仅解决了先前模型的局限性，包括内存和处理速度。它还通过一种独特的数据增强策略改善了时间一致性。这种策略使得模型对源图像和目标图像的仿射变换是等变的。令人惊讶的是，Fairy 可以在 14 秒内生成 120 帧的 512x384 视频（30 FPS，4 秒时长），至少比之前的工作快 44 倍。一项涉及 1000 个生成样本的综合用户研究证实，我们的方法提供了卓越的质量，在性能上明显胜过已建立的方法。

Abstract

In this paper, we introduce fairy, a minimalist yet robust adaptation of image-editing diffusion models, enhancing them for video editing applications. Our approach centers on the concept of →

fairy image editing diffusion models anchor-based cross-frame attention temporal coherence video editing applications

发现论文，激发创造

神奇修复：通过观察动态视频简化照片编辑

我们提出了一个生成模型，根据粗略编辑的图片合成一个遵循预定布局的逼真输出，并从原始图像中转移细节，同时保留其部分的身份信息，并将其调整到由新布局定义的光照和上下文。

Mar, 2024

I2VEdit: 通过图像到视频扩散模型进行首帧引导视频编辑

通过使用预训练的图像到视频模型，我们介绍了一种新颖而通用的方法，将图像编辑工具的适用范围扩展到视频中，通过从单个帧到整个视频的传播编辑来处理全局编辑，局部编辑和适度形状变化，并且通过细粒度的注意力匹配来实现精确的调整，同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能，并证明其能够产生高质量、时间上连续的输出。

May, 2024

Ada-VE: 自适应运动先验的无需训练的一致性视频编辑

通过引入自适应的运动引导的跨帧注意机制，本文提出了一种显著降低计算复杂性的方法，同时保留语义细节和时间一致性，并通过 KV 缓存共享提高了中间帧质量和时间一致性，大大增加了联合编辑的关键帧数量，不受视觉质量和时间一致性的影响。

Jun, 2024

EffiVED: 基于文本指令扩散模型的高效视频编辑

EffiVED 是一种基于扩散的高效模型，支持指导视频编辑；采用图像编辑数据集和开放世界视频转化为高质量数据集进行训练；实验证明 EffiVED 生成高质量编辑视频且执行速度快，并且数据收集方法显著改善编辑性能，有望解决视频编辑数据的稀缺问题。

Mar, 2024

Dreamix：视频传播模型是通用视频编辑器

该研究提出了一种基于视频扩散模型的图像和视频编辑方法，利用时序信息和高分辨率信息生成与指导文本匹配的视频，并以完全时间关注和时间关注掩码联合完成模型的微调，实现了较好的编辑效果。

Feb, 2023

VIDiff: 多模态指令扩散模型的视频翻译

我们提出了 Video Instruction Diffusion（VIDiff），这是一个统一的基础模型，专为广泛的视频任务设计，包括理解任务（如语言引导的视频对象分割）和生成任务（视频编辑和增强）。我们的模型可以根据用户指令在几秒钟内编辑和翻译所需的结果，并设计了一个迭代的自回归方法来确保对长视频的一致性编辑和增强。我们以定性和定量的方式提供了对各种输入视频和书面指令的令人信服的生成结果。

Nov, 2023

MagicEdit: 高保真和时间连贯的视频编辑

MagicEdit 是一种非常简单但非常有效的解决文本指导下的视频编辑任务的方法，通过在训练过程中明确分离内容、结构和动作信号的学习，可以实现高保真度和时间连贯性的视频到视频的转换。这与大多数现有方法试图在单个框架内同时建模外观和时间表示相矛盾，我们认为这会导致每帧质量下降。尽管简单，但我们展示了 MagicEdit 支持各种下游视频编辑任务，包括视频风格化、局部编辑、视频混合和视频外涂。

Aug, 2023

使用 Transformer 的视频帧插值

使用 Transformer 和跨尺度窗口关注机制的视频帧插值方法，在多个基准测试上达到了新的最先进结果。

May, 2022

利用合成数据集的视频到视频转换

一项针对基于文本的视频编辑的新型高效方法，通过自动生成适用于视频转换任务的合成配对视频数据集，用于视频图像编辑指令的转换，并采用长视频采样校正以确保一致性。该方法超越了现有的方法（如 Tune-A-Video），在基于文本的视频编辑方面取得了显著进展，并提出了更多领域探索和应用的激动人心的方向。

Nov, 2023

AVID：扩展视觉中任意长度视频修复的扩散模型

使用扩散模型实现了文本引导的图像修复的最新进展，而在视频领域中，关于文本引导的视频修复的研究较少。为了解决文本引导的视频修复中的三个主要挑战：时间一致性、不同修复类型的支持、以及可变的视频长度，我们提出了一种名为 AVID (Any-Length Video Inpainting with Diffusion Model) 的方法，它具备有效的运动模块和可调节的结构引导，并建立了一种新颖的时序多扩散采样管道，以实现任意持续时间的视频生成。通过全面的实验，我们的模型能够稳健地处理不同时长范围内的各种修复类型，并生成高质量的视频。

Dec, 2023