Slicedit: 使用时空切片的文本到图像传扩模型的零样本视频编辑

ICMLMay, 2024

Slicedit: 使用时空切片的文本到图像传扩模型的零样本视频编辑

Slicedit: Zero-Shot Video Editing With Text-to-Image Diffusion Models Using Spatio-Temporal Slices

Nathaniel Cohen, Vladimir Kulikov, Matan Kleiner, Inbar Huberman-Spiegelglas, Tomer Michaeli

TL;DR通过利用预训练的 T2I 扩散模型处理空间和时空切片，我们提出了一种基于文本的视频编辑方法 Slicedit，能够生成保留原始视频结构和动作并满足目标文本的视频，相对于现有竞争方法，我们证明了 Slicedit 在编辑各种真实世界视频方面的明显优势。

Abstract

Text-to-image (T2I) diffusion models achieve state-of-the-art results in image synthesis and editing. However, leveraging such pretrained models for video editing is considered a major challenge. Many existing works attempt to enforce →

text-to-image diffusion model video editing temporal consistency spatiotemporal slices slicedit

发现论文，激发创造

使用图像扩散模型编辑具有时间一致性的视频

通过建立一个优雅而高效的 TCVE（Temporal-Consistent Video Editing）方法，本研究在大规模文本到图像（T2I）扩散模型的基础上，解决了文本引导视频编辑中的时间不连贯问题，取得了视频时序一致性和编辑能力方面的最新突破，并超越了该领域的现有基准。

Aug, 2023

VidEdit：零样本和空间感知的文本驱动视频编辑

本研究介绍了一种名为 VidEdit 的零镜头文本视频编辑方法，利用扩散模型结合语义分割器和边缘检测器实现了强的时间和空间上的一致性，证明在 DAVIS 数据集上，VidEdit 在语义保真度、图像保存和时间一致性方面优于现有的方法，同时仅需大约一分钟即可处理一个视频。

Jun, 2023

Free-Editor: 零样本条件下的基于文本的 3D 场景编辑

提出了一种新颖的无需重新训练模型的 3D 场景编辑技术 Free-Editor，采用单视图编辑方案以避免多视角风格不一致问题，并使用 Edit Transformer 实现视图内一致性和视图间风格迁移，实现了快速且多样化的编辑能力。

Dec, 2023

多模态引导下的图像编辑与文本到图像扩散模型调查

图像编辑以满足用户特定需求为目标，近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾，介绍了综合的图像编辑范畴、各种控制信号和编辑场景，提出了一个统一的框架来规范编辑过程，并分成两个主要算法体系，为用户实现特定目标提供了一个设计空间。另外，对于基于训练的方法，我们讨论了它们的特点和适用场景，并介绍了在不同场景下源图像注入的方案。此外，我们还回顾了将二维技术应用于视频编辑，并突出了解决帧间不一致问题的解决方案。最后，我们讨论了该领域面临的开放性挑战，并提出了潜在的未来研究方向。

Jun, 2024

I2VEdit: 通过图像到视频扩散模型进行首帧引导视频编辑

通过使用预训练的图像到视频模型，我们介绍了一种新颖而通用的方法，将图像编辑工具的适用范围扩展到视频中，通过从单个帧到整个视频的传播编辑来处理全局编辑，局部编辑和适度形状变化，并且通过细粒度的注意力匹配来实现精确的调整，同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能，并证明其能够产生高质量、时间上连续的输出。

May, 2024

Text2AC-Zero：使用 2D 扩散一致合成动画角色

我们提出了一种零样本方法，基于预训练的文本到图像扩散模型实现一致的文本到动画角色合成。通过利用现有的基于文本的动作扩散模型生成多样的动作，并使用其指导文本到图像模型，我们成功地在不需要训练或微调的情况下生成了具有不同动作和风格的时序一致的视频，优于现有的零样本文本到视频方法在像素一致性和用户偏好方面。

Dec, 2023

GenVideo: 利用 T2I 扩散模型进行单次目标图像和形状感知视频编辑

提出了一种名为 “GenVideo” 的视频编辑方法，它利用目标图像感知的 T2I 模型进行编辑，能够处理具有不同形状的目标对象的编辑，并通过新颖的目标和形状感知 InvEdit 蒙版保持编辑的时间一致性。实验分析表明，GenVideo 能够有效处理以往方法无法处理的具有不同形状的对象的编辑。

Apr, 2024

Dreamix：视频传播模型是通用视频编辑器

该研究提出了一种基于视频扩散模型的图像和视频编辑方法，利用时序信息和高分辨率信息生成与指导文本匹配的视频，并以完全时间关注和时间关注掩码联合完成模型的微调，实现了较好的编辑效果。

Feb, 2023

TiNO-Edit: 时间步长和噪声优化用于稳健扩散式图像编辑

通过对噪音模式和扩散时间步进行优化，本文提出了基于 SD 的 TiNO-Edit 方法，其能够生成与原始图像更加吻合且符合预期结果的编辑结果，同时在 SD 的潜在域中提出了一组新的损失函数来加速优化过程。

Apr, 2024

利用文图扩散模型实现一致的视频编辑

本文提出了 EI ^ 2 模型，主要解决 Text-to-Image 的视频编辑中存在的文本指示不一致和时间序列问题，通过引入 Shift-restricted Temporal Attention Module (STAM) 和 Fine-coarse Frame Attention Module (FFAM) 解决协变量漂移问题以及合理利用局部和全局信息，提高编辑的一致性。

May, 2023