COVE：释放扩散特征对应的一致视频编辑

Jun, 2024

COVE：释放扩散特征对应的一致视频编辑

COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing

Jiangshan Wang, Yue Ma, Jiayi Guo, Yicheng Xiao, Gao Huang...

TL;DR通过利用扩散特征的对应关系，在视频编辑中实现高质量和一致性，并通过在 GPU 内存使用和编辑进程中引入时空维度的令牌合并策略来加速编辑过程。

Abstract

video editing is an emerging task, in which most current methods adopt the pre-trained text-to-image (T2I) diffusion model to edit the source video in a zero-shot manner. Despite extensive efforts, maintaining th

video editing temporal consistency diffusion model cove token merging

发现论文，激发创造

使用图像扩散模型编辑具有时间一致性的视频

通过建立一个优雅而高效的 TCVE（Temporal-Consistent Video Editing）方法，本研究在大规模文本到图像（T2I）扩散模型的基础上，解决了文本引导视频编辑中的时间不连贯问题，取得了视频时序一致性和编辑能力方面的最新突破，并超越了该领域的现有基准。

Aug, 2023

TokenFlow：一致扩散特征用于一致视频编辑

基于文本驱动的视频编辑，我们介绍了一个利用文本到图像扩散模型的框架，生成高质量视频的同时保留输入视频的空间布局和运动，实现编辑视频的一致性。

Jul, 2023

I2VEdit: 通过图像到视频扩散模型进行首帧引导视频编辑

通过使用预训练的图像到视频模型，我们介绍了一种新颖而通用的方法，将图像编辑工具的适用范围扩展到视频中，通过从单个帧到整个视频的传播编辑来处理全局编辑，局部编辑和适度形状变化，并且通过细粒度的注意力匹配来实现精确的调整，同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能，并证明其能够产生高质量、时间上连续的输出。

May, 2024

图像扩散中的紧急对应

本文提出 DIffusion FeaTures (DIFT) 方法来确立图像之间的对应关系，在稳定扩散的情况下，DIFT 均能够在语义、几何和时间上优于弱监督方法以及其他对照组，尤其是在 SPair-71k 基准测试中，DIFT 相对于 DINO 和 OpenCLIP 的准确率分别提高了 19 个和 14 个点，即使在总体性能上表现相当的情况下，在 18 个类别中有 9 个可以超越最先进的监督方法。

Jun, 2023

StableVideo: 基于文本的一致性感知扩散视频编辑

通过引入时态依赖于现有的文本驱动扩散模型，使其能够生成一致的编辑对象外观，我们解决了扩散模型在自然视频编辑中编辑现有对象时难以保持其外观随时间稳定的问题。通过开发一种新颖的帧间传播机制，利用分层表示的概念将相邻帧的外观信息传播到下一帧，并基于该机制构建了一个名为 StableVideo 的文本驱动视频编辑框架，可以实现一致感知的视频编辑。广泛的实验证明了我们方法的强大编辑能力。与最先进的视频编辑方法相比，我们方法展示了卓越的定性和定量结果。

Aug, 2023

VidToMe: 零摄影剪辑的视频令牌合并

通过合并帧间的自注意力标记，提高生成视频的时间一致性和降低内存使用，从而实现图像编辑技术在视频编辑领域的扩展。

Dec, 2023

Slicedit: 使用时空切片的文本到图像传扩模型的零样本视频编辑

通过利用预训练的 T2I 扩散模型处理空间和时空切片，我们提出了一种基于文本的视频编辑方法 Slicedit，能够生成保留原始视频结构和动作并满足目标文本的视频，相对于现有竞争方法，我们证明了 Slicedit 在编辑各种真实世界视频方面的明显优势。

May, 2024

GenVideo: 利用 T2I 扩散模型进行单次目标图像和形状感知视频编辑

提出了一种名为 “GenVideo” 的视频编辑方法，它利用目标图像感知的 T2I 模型进行编辑，能够处理具有不同形状的目标对象的编辑，并通过新颖的目标和形状感知 InvEdit 蒙版保持编辑的时间一致性。实验分析表明，GenVideo 能够有效处理以往方法无法处理的具有不同形状的对象的编辑。

Apr, 2024

EVE: 基于深度图引导和时序一致性约束的高效零样本基于文本的视频编辑

通过深度图和时序一致性约束，提出了一种强大且高效的零样本视频编辑方法 EVE，能够以可承受的计算和时间成本派生出令人满意的视频编辑结果，并构建了新的基准 ZVE-50 数据集以促进未来研究。

Aug, 2023

FastVideoEdit：利用一致性模型进行高效的文本到视频编辑

借鉴一致性模型 (CM) 的自洽性特性，我们提出了一种高效的零样本视频编辑方法 FastVideoEdit，能够减少编辑时间并提高编辑速度，同时保持可比较的生成质量。

Mar, 2024