使用图像扩散模型编辑具有时间一致性的视频

Aug, 2023

使用图像扩散模型编辑具有时间一致性的视频

Edit Temporal-Consistent Videos with Image Diffusion Model

Yuanzhi Wang, Yong Li, Xin Liu, Anbo Dai, Antoni Chan...

TL;DR通过建立一个优雅而高效的 TCVE（Temporal-Consistent Video Editing）方法，本研究在大规模文本到图像（T2I）扩散模型的基础上，解决了文本引导视频编辑中的时间不连贯问题，取得了视频时序一致性和编辑能力方面的最新突破，并超越了该领域的现有基准。

Abstract

Large-scale text-to-image (T2I) diffusion models have been extended for text-guided video editing, yielding impressive zero-shot video editing

text-to-image video editing temporal consistency 2d unet tcve

发现论文，激发创造

Slicedit: 使用时空切片的文本到图像传扩模型的零样本视频编辑

通过利用预训练的 T2I 扩散模型处理空间和时空切片，我们提出了一种基于文本的视频编辑方法 Slicedit，能够生成保留原始视频结构和动作并满足目标文本的视频，相对于现有竞争方法，我们证明了 Slicedit 在编辑各种真实世界视频方面的明显优势。

May, 2024

利用文图扩散模型实现一致的视频编辑

本文提出了 EI ^ 2 模型，主要解决 Text-to-Image 的视频编辑中存在的文本指示不一致和时间序列问题，通过引入 Shift-restricted Temporal Attention Module (STAM) 和 Fine-coarse Frame Attention Module (FFAM) 解决协变量漂移问题以及合理利用局部和全局信息，提高编辑的一致性。

May, 2023

StableVideo: 基于文本的一致性感知扩散视频编辑

通过引入时态依赖于现有的文本驱动扩散模型，使其能够生成一致的编辑对象外观，我们解决了扩散模型在自然视频编辑中编辑现有对象时难以保持其外观随时间稳定的问题。通过开发一种新颖的帧间传播机制，利用分层表示的概念将相邻帧的外观信息传播到下一帧，并基于该机制构建了一个名为 StableVideo 的文本驱动视频编辑框架，可以实现一致感知的视频编辑。广泛的实验证明了我们方法的强大编辑能力。与最先进的视频编辑方法相比，我们方法展示了卓越的定性和定量结果。

Aug, 2023

Video ControlNet：条件图像扩散模型实现时域一致的虚拟到真实视频翻译

本研究提出了一种高效有效的方法，通过利用条件图像扩散模型实现长度可变视频中时间一致的合成到真实视频转换，同时保持视频的时空一致性。我们通过使用可用的合成视频的光流信息，通过联合噪声优化有效地最小化了时空不一致性，实现对多个合成图像生成的平行化。通过在各种综合基准上进行的大量实验证明了我们的方法的有效性，并且我们的方法不需要对扩散模型进行任何培训或微调。最后，我们证明了我们的方法在时空一致性和视觉质量方面均优于其他基线方法。

May, 2023

I2VEdit: 通过图像到视频扩散模型进行首帧引导视频编辑

通过使用预训练的图像到视频模型，我们介绍了一种新颖而通用的方法，将图像编辑工具的适用范围扩展到视频中，通过从单个帧到整个视频的传播编辑来处理全局编辑，局部编辑和适度形状变化，并且通过细粒度的注意力匹配来实现精确的调整，同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能，并证明其能够产生高质量、时间上连续的输出。

May, 2024

TokenFlow：一致扩散特征用于一致视频编辑

基于文本驱动的视频编辑，我们介绍了一个利用文本到图像扩散模型的框架，生成高质量视频的同时保留输入视频的空间布局和运动，实现编辑视频的一致性。

Jul, 2023

FastVideoEdit：利用一致性模型进行高效的文本到视频编辑

借鉴一致性模型 (CM) 的自洽性特性，我们提出了一种高效的零样本视频编辑方法 FastVideoEdit，能够减少编辑时间并提高编辑速度，同时保持可比较的生成质量。

Mar, 2024

Text2AC-Zero：使用 2D 扩散一致合成动画角色

我们提出了一种零样本方法，基于预训练的文本到图像扩散模型实现一致的文本到动画角色合成。通过利用现有的基于文本的动作扩散模型生成多样的动作，并使用其指导文本到图像模型，我们成功地在不需要训练或微调的情况下生成了具有不同动作和风格的时序一致的视频，优于现有的零样本文本到视频方法在像素一致性和用户偏好方面。

Dec, 2023

GenVideo: 利用 T2I 扩散模型进行单次目标图像和形状感知视频编辑

提出了一种名为 “GenVideo” 的视频编辑方法，它利用目标图像感知的 T2I 模型进行编辑，能够处理具有不同形状的目标对象的编辑，并通过新颖的目标和形状感知 InvEdit 蒙版保持编辑的时间一致性。实验分析表明，GenVideo 能够有效处理以往方法无法处理的具有不同形状的对象的编辑。

Apr, 2024

文本到视频生成的层次化时空解耦

提出了 HiGen，一种基于扩散模型的方法，通过从结构层面和内容层面解耦视频的空间和时间因素，实现了在生成视频时具备语义准确性和运动稳定性的方法。

Dec, 2023