零样本文本指导的视频到视频转换

Jun, 2023

零样本文本指导的视频到视频转换

Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation

Shuai Yang, Yifan Zhou, Ziwei Liu, Chen Change Loy

TL;DR本研究提出了一种基于零样本文本引导的视频到视频转换框架来适应图像模型到视频的应用，在形状、纹理和颜色上强制执行分层的跨帧约束，实现低成本下的全局样式和局部纹理的时空一致性。

Abstract

Large text-to-image diffusion models have exhibited impressive proficiency in generating high-quality images. However, when applying these models to video domain, ensuring temporal consistency across video frames

text-to-image diffusion models temporal consistency zero-shot video-to-video translation hierarchical cross-frame constraints diffusion model

发现论文，激发创造

潜在变形：用于零样本视频到视频翻译的一致性扩散潜变量

通过图像扩散模型的生成能力，我们提出了一种名为 LatentWarp 的新的零样本视频 - 视频翻译框架，通过约束查询令牌的时间一致性，在潜在空间中进一步结合了变形操作以约束查询令牌，从而实现了生成视频的视觉时间相干性的提升。

Nov, 2023

FRESCO: 零样本视频转换的时空对应关系

我们介绍了一种名为 FRESCO 的方法，通过添加帧内和帧间对应关系建立了更强健的时空约束，在视频翻译中实现了语义相似内容的一致转换，显著改善了结果的视觉连贯性。大量实验证明了我们提出的框架在生成高质量、连贯的视频方面的有效性，相比现有的零样本方法有显著改进。

Mar, 2024

零样学习的基于文本驱动运动转换的时空扩散特征

我们提出了一种新的文本驱动运动转换方法，通过合成一个符合目标对象和场景描述的输入文本的视频，同时保持输入视频的运动和场景布局。

Nov, 2023

Text2AC-Zero：使用 2D 扩散一致合成动画角色

我们提出了一种零样本方法，基于预训练的文本到图像扩散模型实现一致的文本到动画角色合成。通过利用现有的基于文本的动作扩散模型生成多样的动作，并使用其指导文本到图像模型，我们成功地在不需要训练或微调的情况下生成了具有不同动作和风格的时序一致的视频，优于现有的零样本文本到视频方法在像素一致性和用户偏好方面。

Dec, 2023

通过同步多帧扩散实现高精细和时间一致的视频风格化

提出了一种基于文本引导的视频风格化方法，通过同步多帧扩散框架来维持视觉细节和时间一致性，实现了视觉细节和时间一致性的生成高质量和多样性的结果。

Nov, 2023

通过文本图像传播模型进行零样本视频编辑

一种名为 Ground-A-Video 的新型基于 groundings 的多属性视频编辑框架，通过引入跨帧门控注意力、调制交叉注意力和光流引导反转隐藏特征平滑，实现了无需训练的时间一致的多属性视频编辑，并在编辑准确度和帧一致性方面表现优于其他基准方法。

Oct, 2023

FlowZero：基于 LLM 驱动的动态场景语法的零样本文本到视频合成

Text-to-video generation using FlowZero, a framework that combines Large Language Models (LLMs) with image diffusion models, achieves improvement in zero-shot video synthesis by generating coherent videos with vivid motion.

Nov, 2023

TI2V-Zero: 文本到视频扩散模型中的零样本图像调节

提出了 TI2V-Zero：一种无需优化或微调的零样本方法，通过使用预训练的文本到视频扩散模型，使其能够在给定图像的条件下生成实际视频。该方法使用 “重复滑动” 策略来引导视频生成，并提供了一种保持视觉细节的新合成帧初始化和重新采样技术，从而实现视频的逐帧合成。TI2V-Zero 在领域特定和开放领域数据集上的实验证明了其优越性能，并且能够无缝扩展到其他任务和支持长视频生成。

Apr, 2024

Motion-Zero：基于扩散的视频生成中的零表示移动物体控制框架

我们提出了一种新颖的零样条移动物体轨迹控制框架 Motion-Zero，通过提供基于位置的先验来改善移动物体的外观稳定性和位置准确性，并利用 U-net 的注意力图在扩散模型的去噪过程中直接应用空间约束，从而进一步确保移动物体的位置和空间一致性，并通过引入移动注意力机制实现时序一致性的保证。这种方法可以灵活运用于各种最先进的视频扩散模型，无需任何训练过程，大量实验证明我们的方法可以控制物体的运动轨迹并生成高质量的视频。

Jan, 2024

VidEdit：零样本和空间感知的文本驱动视频编辑

本研究介绍了一种名为 VidEdit 的零镜头文本视频编辑方法，利用扩散模型结合语义分割器和边缘检测器实现了强的时间和空间上的一致性，证明在 DAVIS 数据集上，VidEdit 在语义保真度、图像保存和时间一致性方面优于现有的方法，同时仅需大约一分钟即可处理一个视频。

Jun, 2023