TokenFlow：一致扩散特征用于一致视频编辑

Jul, 2023

TokenFlow：一致扩散特征用于一致视频编辑

TokenFlow: Consistent Diffusion Features for Consistent Video Editing

Michal Geyer, Omer Bar-Tal, Shai Bagon, Tali Dekel

TL;DR基于文本驱动的视频编辑，我们介绍了一个利用文本到图像扩散模型的框架，生成高质量视频的同时保留输入视频的空间布局和运动，实现编辑视频的一致性。

Abstract

The generative ai revolution has recently expanded to videos. Nevertheless, current state-of-the-art video models are still lagging behind image models in terms of →

generative ai revolution video models visual quality user control text-driven video editing

发现论文，激发创造

StableVideo: 基于文本的一致性感知扩散视频编辑

通过引入时态依赖于现有的文本驱动扩散模型，使其能够生成一致的编辑对象外观，我们解决了扩散模型在自然视频编辑中编辑现有对象时难以保持其外观随时间稳定的问题。通过开发一种新颖的帧间传播机制，利用分层表示的概念将相邻帧的外观信息传播到下一帧，并基于该机制构建了一个名为 StableVideo 的文本驱动视频编辑框架，可以实现一致感知的视频编辑。广泛的实验证明了我们方法的强大编辑能力。与最先进的视频编辑方法相比，我们方法展示了卓越的定性和定量结果。

Aug, 2023

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

Dreamix：视频传播模型是通用视频编辑器

该研究提出了一种基于视频扩散模型的图像和视频编辑方法，利用时序信息和高分辨率信息生成与指导文本匹配的视频，并以完全时间关注和时间关注掩码联合完成模型的微调，实现了较好的编辑效果。

Feb, 2023

通过同步多帧扩散实现高精细和时间一致的视频风格化

提出了一种基于文本引导的视频风格化方法，通过同步多帧扩散框架来维持视觉细节和时间一致性，实现了视觉细节和时间一致性的生成高质量和多样性的结果。

Nov, 2023

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

StoryDiffusion: 长距离图像和视频生成的一致性自注意力

通过引入一种新的自我关注计算方式（Consistent Self-Attention），以及引入一种语义空间时间运动预测模块（Semantic Motion Predictor），本文提出了一种名为 StoryDiffusion 的框架，能够生成包含丰富内容的一致图像或视频，用来描述基于文本的故事。

May, 2024

使用图像扩散模型编辑具有时间一致性的视频

通过建立一个优雅而高效的 TCVE（Temporal-Consistent Video Editing）方法，本研究在大规模文本到图像（T2I）扩散模型的基础上，解决了文本引导视频编辑中的时间不连贯问题，取得了视频时序一致性和编辑能力方面的最新突破，并超越了该领域的现有基准。

Aug, 2023

FastVideoEdit：利用一致性模型进行高效的文本到视频编辑

借鉴一致性模型 (CM) 的自洽性特性，我们提出了一种高效的零样本视频编辑方法 FastVideoEdit，能够减少编辑时间并提高编辑速度，同时保持可比较的生成质量。

Mar, 2024

零样学习的基于文本驱动运动转换的时空扩散特征

我们提出了一种新的文本驱动运动转换方法，通过合成一个符合目标对象和场景描述的输入文本的视频，同时保持输入视频的运动和场景布局。

Nov, 2023

文本到视频生成的网格扩散模型

通过使用网格扩散模型生成视频，我们可以通过固定数量的 GPU 内存生成高质量的视频，减小视频维度从而可以应用各种基于图像的方法，如基于文本的视频操作。我们的方法在定量和定性评估中表现优于现有方法，证明了我们的模型在真实世界中进行视频生成的适用性。

Mar, 2024