VidToMe: 零摄影剪辑的视频令牌合并

Dec, 2023

VidToMe: 零摄影剪辑的视频令牌合并

VidToMe: Video Token Merging for Zero-Shot Video Editing

Xirui Li, Chao Ma, Xiaokang Yang, Ming-Hsuan Yang

TL;DR通过合并帧间的自注意力标记，提高生成视频的时间一致性和降低内存使用，从而实现图像编辑技术在视频编辑领域的扩展。

Abstract

diffusion models have made significant advances in generating high-quality images, but their application to video generation has remained challenging due to the complexity of temporal motion. Zero-shot

diffusion models video generation temporal consistency self-attention tokens video editing

发现论文，激发创造

潜在变形：用于零样本视频到视频翻译的一致性扩散潜变量

通过图像扩散模型的生成能力，我们提出了一种名为 LatentWarp 的新的零样本视频 - 视频翻译框架，通过约束查询令牌的时间一致性，在潜在空间中进一步结合了变形操作以约束查询令牌，从而实现了生成视频的视觉时间相干性的提升。

Nov, 2023

VidEdit：零样本和空间感知的文本驱动视频编辑

本研究介绍了一种名为 VidEdit 的零镜头文本视频编辑方法，利用扩散模型结合语义分割器和边缘检测器实现了强的时间和空间上的一致性，证明在 DAVIS 数据集上，VidEdit 在语义保真度、图像保存和时间一致性方面优于现有的方法，同时仅需大约一分钟即可处理一个视频。

Jun, 2023

零样本文本指导的视频到视频转换

本研究提出了一种基于零样本文本引导的视频到视频转换框架来适应图像模型到视频的应用，在形状、纹理和颜色上强制执行分层的跨帧约束，实现低成本下的全局样式和局部纹理的时空一致性。

Jun, 2023

使用图像扩散模型编辑具有时间一致性的视频

通过建立一个优雅而高效的 TCVE（Temporal-Consistent Video Editing）方法，本研究在大规模文本到图像（T2I）扩散模型的基础上，解决了文本引导视频编辑中的时间不连贯问题，取得了视频时序一致性和编辑能力方面的最新突破，并超越了该领域的现有基准。

Aug, 2023

FastVideoEdit：利用一致性模型进行高效的文本到视频编辑

借鉴一致性模型 (CM) 的自洽性特性，我们提出了一种高效的零样本视频编辑方法 FastVideoEdit，能够减少编辑时间并提高编辑速度，同时保持可比较的生成质量。

Mar, 2024

StoryDiffusion: 长距离图像和视频生成的一致性自注意力

通过引入一种新的自我关注计算方式（Consistent Self-Attention），以及引入一种语义空间时间运动预测模块（Semantic Motion Predictor），本文提出了一种名为 StoryDiffusion 的框架，能够生成包含丰富内容的一致图像或视频，用来描述基于文本的故事。

May, 2024

Text2AC-Zero：使用 2D 扩散一致合成动画角色

我们提出了一种零样本方法，基于预训练的文本到图像扩散模型实现一致的文本到动画角色合成。通过利用现有的基于文本的动作扩散模型生成多样的动作，并使用其指导文本到图像模型，我们成功地在不需要训练或微调的情况下生成了具有不同动作和风格的时序一致的视频，优于现有的零样本文本到视频方法在像素一致性和用户偏好方面。

Dec, 2023

InFusion：用于多概念零样本文本视频编辑的注入和注意力融合

使用 InFusion 框架，基于大型预训练图像扩散模型进行零样例基于文本的视频编辑，以实现丰富的概念编辑、时间一致性和连贯性。

Jul, 2023

使用扩展的注意力实现视频中的时态一致的对象编辑

使用预训练的图像修复扩散模型，通过替换自注意力模块以创建帧级依赖关系，我们提出了一种编辑视频的方法，以确保编辑信息在所有视频帧中保持一致，从而在对象重定向、对象替换和对象移除等多个视频编辑任务中展示了该策略的卓越性能。

Jun, 2024

I2VEdit: 通过图像到视频扩散模型进行首帧引导视频编辑

通过使用预训练的图像到视频模型，我们介绍了一种新颖而通用的方法，将图像编辑工具的适用范围扩展到视频中，通过从单个帧到整个视频的传播编辑来处理全局编辑，局部编辑和适度形状变化，并且通过细粒度的注意力匹配来实现精确的调整，同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能，并证明其能够产生高质量、时间上连续的输出。

May, 2024