ControlVideo: 无需训练的可控文本到视频生成

May, 2023

ControlVideo: 无需训练的可控文本到视频生成

ControlVideo: Training-free Controllable Text-to-Video Generation

Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo...

TL;DRControlVideo 是一种基于文本驱动扩散模型的、无需训练即可完成自然高效文本到视频生成，使用三个模块实现外观协调、帧插值以及分层采样，能够在轻松几分钟之内生成高质量的短视频和长视频。

Abstract

text-driven diffusion models have unlocked unprecedented abilities in image generation, whereas their video counterpart still lags behind due to the excessive training cost of temporal modeling. Besides the training burden, the generated videos also suffer from appearance inconsistency

text-driven diffusion models image generation video synthesis controlvideo efficient text-to-video generation

发现论文，激发创造

基于扩散模型的可控文本到视频生成

本文提出了一种可控的文本到视频模型，名为 Video-ControlNet，它可以生成由控制信号（如边缘或深度图）条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验，并生成具有细粒度控制的高质量和连贯视频。

May, 2023

ControlVideo：为一键式文本到视频编辑增加有条件的控制

本文提出了 ControlVideo，一种基于文本指导的视频编辑方法，通过结合文本到图像扩散模型和 ControlNet，优化视频的保真度和时间一致性以与给定文本对齐，并使用复杂设计策略在源视频的关键帧和时间注意力上进行微调，量化结果证明了 ControlVideo 相比其他竞争算法具有更高的保真度和一致性。

May, 2023

LOVECon：基于文本的无需训练的长视频编辑与 ControlNet 控制

本研究旨在建立一个简单而有效的基于训练无关扩散模型的长视频编辑基线，通过分割长视频并采用新颖的跨窗口注意机制，以确保全局风格的一致性和窗口之间的平滑性。通过 DDIM 反演从源视频中提取信息，并将结果整合到生成的潜在状态中，同时结合视频帧插值模型以减轻帧级闪烁问题。经过广泛的实证研究，验证了我们的方法在替换前景物体属性、风格转移和背景替换等场景下相对竞争基准的卓越有效性。

Oct, 2023

ConditionVideo: 无需训练的条件引导文本到视频生成

在本文中，我们介绍了一种无需训练的文本到视频生成方法，通过利用现有的文本到图像生成方法生成逼真的动态视频，这种方法以条件、视频和输入文本为基础。我们的方法将运动表示明确地分为条件引导和场景运动组成，并引入了稀疏双向时空注意力来改善时序一致性。与其他比较方法相比，我们的方法在帧一致性、剪辑评分和条件精度方面表现出卓越性能。

Oct, 2023

MotionClone：无需训练的可控视频生成运动克隆

MotionClone 是一个无需训练的框架，通过时间注意力机制从参考视频中克隆运动以控制文本到视频生成，同时引入了区域感知的语义引导机制提升生成模型的空间关系和随机应变能力，实验结果显示 MotionClone 在全局摄像机运动和局部目标运动方面表现出色，并具有运动保真度高、文本对齐准确和时序一致等显著优势。

Jun, 2024

协同视频扩散：具有摄像机控制的一致多视频生成

视频生成的研究最近取得了巨大的进展，使得高质量的视频可以从文字提示或图像中生成。为视频生成过程添加控制是一个重要的目标，并且最近的方法通过在相机轨迹上条件化视频生成模型来朝着这个目标迈进。然而，从多个不同相机轨迹生成相同场景的视频仍然具有挑战性。解决这个多视频生成问题可以实现可编辑相机轨迹的大规模三维场景生成等应用。我们引入了协作视频扩散（CVD）作为实现这一愿景的重要一步。CVD 框架包括一个新颖的跨视频同步模块，通过使用一个极线注意机制促进不同相机姿态下相同视频的对应帧之间的一致性。经过大量实验证明，在针对视频生成的最先进相机控制模块的基础上训练，CVD 生成的从不同相机轨迹渲染的多个视频比基准线具有显著更好的一致性。

May, 2024

UniCtrl：通过无需训练的统一注意力控制提升文本到视频扩散模型的时空一致性

通过引入 UniCtrl 方法，我们解决了使用文本提示作为控制条件时保持一致性的挑战，提升了文本到视频模型生成的视频的时空一致性和运动多样性，实验证实了其效果和普适性。

Mar, 2024

VideoControlNet：一个使用控制网络的扩散模型的运动引导视频到视频翻译框架

通过使用具有控制网络的扩散模型，在给定提示和输入视频的条件下，我们提出了一种新的运动引导视频到视频转换框架 VideoControlNet，以生成各种视频。通过使用运动信息来防止冗余区域的再生成以保持内容一致性。

Jul, 2023

视频生成的无需训练摄像机控制

我们提出了一种无需训练且稳健的解决方案，为现成的视频扩散模型提供摄像机运动控制。我们的方法不同于以前的工作，不需要在带有摄像机注释的数据集上进行有监督的微调或通过数据增强进行自监督训练。相反，它可以与大多数预训练的视频扩散模型插入和播放，并且只需一个图像或文本提示作为输入即可生成可控摄像机的视频。我们的工作灵感来自于中间隐藏变量对生成结果的布局先验，因此重新排列其中的噪点像素将重新分配输出内容。由于摄像机移动也可以被视为透视变化引起的像素重新排列，如果它们的噪点隐藏变量相应改变，视频可以按照特定的摄像机运动进行重新组织。基于此，我们提出了我们的方法 CamTrol，实现了对视频扩散模型的稳健摄像机控制。这通过两个阶段的过程实现。首先，我们在三维点云空间中建模图像布局重新排列通过显式摄像机运动。其次，我们使用一系列重新排列的图像形成的噪点隐藏变量的布局先验生成具有摄像机运动的视频。广泛的实验证明了我们的方法在控制生成视频的摄像机运动方面的鲁棒性。此外，我们展示了我们的方法在生成具有动态内容的三维旋转视频方面产生的令人印象深刻的结果。

Jun, 2024

Gen-L-Video：多文本到长视频生成与时域协同去噪

本文提出了一种称为 Gen-L-Video 的新方法，该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力，使其能够生成和编辑具有多个语义段的数百帧的长视频，而不需要额外的训练，从而极大地拓宽了视频扩散模型的生成和编辑能力。

May, 2023