FastVideoEdit：利用一致性模型进行高效的文本到视频编辑

Mar, 2024

FastVideoEdit：利用一致性模型进行高效的文本到视频编辑

FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video Editing

Youyuan Zhang, Xuan Ju, James J. Clark

TL;DR借鉴一致性模型 (CM) 的自洽性特性，我们提出了一种高效的零样本视频编辑方法 FastVideoEdit，能够减少编辑时间并提高编辑速度，同时保持可比较的生成质量。

Abstract

diffusion models have demonstrated remarkable capabilities in text-to-image and text-to-video generation, opening up possibilities for video editing based on textual input. However, the →

diffusion models video editing computational cost fastvideoedit consistency models

发现论文，激发创造

StableVideo: 基于文本的一致性感知扩散视频编辑

通过引入时态依赖于现有的文本驱动扩散模型，使其能够生成一致的编辑对象外观，我们解决了扩散模型在自然视频编辑中编辑现有对象时难以保持其外观随时间稳定的问题。通过开发一种新颖的帧间传播机制，利用分层表示的概念将相邻帧的外观信息传播到下一帧，并基于该机制构建了一个名为 StableVideo 的文本驱动视频编辑框架，可以实现一致感知的视频编辑。广泛的实验证明了我们方法的强大编辑能力。与最先进的视频编辑方法相比，我们方法展示了卓越的定性和定量结果。

Aug, 2023

Dreamix：视频传播模型是通用视频编辑器

该研究提出了一种基于视频扩散模型的图像和视频编辑方法，利用时序信息和高分辨率信息生成与指导文本匹配的视频，并以完全时间关注和时间关注掩码联合完成模型的微调，实现了较好的编辑效果。

Feb, 2023

TokenFlow：一致扩散特征用于一致视频编辑

基于文本驱动的视频编辑，我们介绍了一个利用文本到图像扩散模型的框架，生成高质量视频的同时保留输入视频的空间布局和运动，实现编辑视频的一致性。

Jul, 2023

使用图像扩散模型编辑具有时间一致性的视频

通过建立一个优雅而高效的 TCVE（Temporal-Consistent Video Editing）方法，本研究在大规模文本到图像（T2I）扩散模型的基础上，解决了文本引导视频编辑中的时间不连贯问题，取得了视频时序一致性和编辑能力方面的最新突破，并超越了该领域的现有基准。

Aug, 2023

VidEdit：零样本和空间感知的文本驱动视频编辑

本研究介绍了一种名为 VidEdit 的零镜头文本视频编辑方法，利用扩散模型结合语义分割器和边缘检测器实现了强的时间和空间上的一致性，证明在 DAVIS 数据集上，VidEdit 在语义保真度、图像保存和时间一致性方面优于现有的方法，同时仅需大约一分钟即可处理一个视频。

Jun, 2023

EffiVED: 基于文本指令扩散模型的高效视频编辑

EffiVED 是一种基于扩散的高效模型，支持指导视频编辑；采用图像编辑数据集和开放世界视频转化为高质量数据集进行训练；实验证明 EffiVED 生成高质量编辑视频且执行速度快，并且数据收集方法显著改善编辑性能，有望解决视频编辑数据的稀缺问题。

Mar, 2024

EVE: 基于深度图引导和时序一致性约束的高效零样本基于文本的视频编辑

通过深度图和时序一致性约束，提出了一种强大且高效的零样本视频编辑方法 EVE，能够以可承受的计算和时间成本派生出令人满意的视频编辑结果，并构建了新的基准 ZVE-50 数据集以促进未来研究。

Aug, 2023

视频 LCM：视频潜在一致性模型

论文介绍了一种名为 VideoLCM 的框架，它利用了一致性模型的概念，通过最小步骤高效地合成视频，同时保持高质量。VideoLCM 基于现有的潜在视频扩散模型，并结合了一致性蒸馏技术来训练潜在一致性模型。实验结果表明，VideoLCM 在计算效率、保真度和时间一致性方面的有效性。尤其值得注意的是，VideoLCM 仅需四个采样步骤即可实现高保真度和流畅的视频合成，展示了实时合成的潜力。希望 VideoLCM 能成为后续研究的简单而有效的基准。源代码和模型将公开提供。

Dec, 2023

利用文图扩散模型实现一致的视频编辑

本文提出了 EI ^ 2 模型，主要解决 Text-to-Image 的视频编辑中存在的文本指示不一致和时间序列问题，通过引入 Shift-restricted Temporal Attention Module (STAM) 和 Fine-coarse Frame Attention Module (FFAM) 解决协变量漂移问题以及合理利用局部和全局信息，提高编辑的一致性。

May, 2023

I2VEdit: 通过图像到视频扩散模型进行首帧引导视频编辑

通过使用预训练的图像到视频模型，我们介绍了一种新颖而通用的方法，将图像编辑工具的适用范围扩展到视频中，通过从单个帧到整个视频的传播编辑来处理全局编辑，局部编辑和适度形状变化，并且通过细粒度的注意力匹配来实现精确的调整，同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能，并证明其能够产生高质量、时间上连续的输出。

May, 2024