VidEdit：零样本和空间感知的文本驱动视频编辑

Jun, 2023

VidEdit：零样本和空间感知的文本驱动视频编辑

VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing

Paul Couairon, Clément Rambour, Jean-Emmanuel Haugeard, Nicolas Thome

TL;DR本研究介绍了一种名为 VidEdit 的零镜头文本视频编辑方法，利用扩散模型结合语义分割器和边缘检测器实现了强的时间和空间上的一致性，证明在 DAVIS 数据集上，VidEdit 在语义保真度、图像保存和时间一致性方面优于现有的方法，同时仅需大约一分钟即可处理一个视频。

Abstract

Recently, diffusion-based generative models have achieved remarkable success for image generation and edition. However, their use for video editing still faces important limitations. This paper introduces VidEdit, a novel method for →

diffusion-based generative models zero-shot text-based video editing temporal and spatial consistency atlas-based and pre-trained text-to-image diffusion models off-the-shelf panoptic segmenters

发现论文，激发创造

Slicedit: 使用时空切片的文本到图像传扩模型的零样本视频编辑

通过利用预训练的 T2I 扩散模型处理空间和时空切片，我们提出了一种基于文本的视频编辑方法 Slicedit，能够生成保留原始视频结构和动作并满足目标文本的视频，相对于现有竞争方法，我们证明了 Slicedit 在编辑各种真实世界视频方面的明显优势。

May, 2024

InFusion：用于多概念零样本文本视频编辑的注入和注意力融合

使用 InFusion 框架，基于大型预训练图像扩散模型进行零样例基于文本的视频编辑，以实现丰富的概念编辑、时间一致性和连贯性。

Jul, 2023

I2VEdit: 通过图像到视频扩散模型进行首帧引导视频编辑

通过使用预训练的图像到视频模型，我们介绍了一种新颖而通用的方法，将图像编辑工具的适用范围扩展到视频中，通过从单个帧到整个视频的传播编辑来处理全局编辑，局部编辑和适度形状变化，并且通过细粒度的注意力匹配来实现精确的调整，同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能，并证明其能够产生高质量、时间上连续的输出。

May, 2024

FastVideoEdit：利用一致性模型进行高效的文本到视频编辑

借鉴一致性模型 (CM) 的自洽性特性，我们提出了一种高效的零样本视频编辑方法 FastVideoEdit，能够减少编辑时间并提高编辑速度，同时保持可比较的生成质量。

Mar, 2024

零样本文本指导的视频到视频转换

本研究提出了一种基于零样本文本引导的视频到视频转换框架来适应图像模型到视频的应用，在形状、纹理和颜色上强制执行分层的跨帧约束，实现低成本下的全局样式和局部纹理的时空一致性。

Jun, 2023

EffiVED: 基于文本指令扩散模型的高效视频编辑

EffiVED 是一种基于扩散的高效模型，支持指导视频编辑；采用图像编辑数据集和开放世界视频转化为高质量数据集进行训练；实验证明 EffiVED 生成高质量编辑视频且执行速度快，并且数据收集方法显著改善编辑性能，有望解决视频编辑数据的稀缺问题。

Mar, 2024

Gen-L-Video：多文本到长视频生成与时域协同去噪

本文提出了一种称为 Gen-L-Video 的新方法，该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力，使其能够生成和编辑具有多个语义段的数百帧的长视频，而不需要额外的训练，从而极大地拓宽了视频扩散模型的生成和编辑能力。

May, 2023

VIDiff: 多模态指令扩散模型的视频翻译

我们提出了 Video Instruction Diffusion（VIDiff），这是一个统一的基础模型，专为广泛的视频任务设计，包括理解任务（如语言引导的视频对象分割）和生成任务（视频编辑和增强）。我们的模型可以根据用户指令在几秒钟内编辑和翻译所需的结果，并设计了一个迭代的自回归方法来确保对长视频的一致性编辑和增强。我们以定性和定量的方式提供了对各种输入视频和书面指令的令人信服的生成结果。

Nov, 2023

通过文本图像传播模型进行零样本视频编辑

一种名为 Ground-A-Video 的新型基于 groundings 的多属性视频编辑框架，通过引入跨帧门控注意力、调制交叉注意力和光流引导反转隐藏特征平滑，实现了无需训练的时间一致的多属性视频编辑，并在编辑准确度和帧一致性方面表现优于其他基准方法。

Oct, 2023

区域：零样本指导下的局部编辑

基于 Zero-shot 指令引导的局部图像编辑方法 ZONE 通过转换用户提供的指令，实现了对特定图像区域的任意操作，同时保留其他区域的编辑友好性，展现了出色的局部编辑效果，优于现有的最先进方法。

Dec, 2023