LOVECon：基于文本的无需训练的长视频编辑与 ControlNet 控制

Oct, 2023

LOVECon：基于文本的无需训练的长视频编辑与 ControlNet 控制

LOVECon: Text-driven Training-Free Long Video Editing with ControlNet

Zhenyi Liao, Zhijie Deng

TL;DR本研究旨在建立一个简单而有效的基于训练无关扩散模型的长视频编辑基线，通过分割长视频并采用新颖的跨窗口注意机制，以确保全局风格的一致性和窗口之间的平滑性。通过 DDIM 反演从源视频中提取信息，并将结果整合到生成的潜在状态中，同时结合视频帧插值模型以减轻帧级闪烁问题。经过广泛的实证研究，验证了我们的方法在替换前景物体属性、风格转移和背景替换等场景下相对竞争基准的卓越有效性。

Abstract

Leveraging pre-trained conditional diffusion models for video editing without further tuning has gained increasing attention due to its promise in film production, advertising, etc. Yet, seminal works in this lin

pre-trained conditional diffusion models video editing long video editing controlnet video frame interpolation

发现论文，激发创造

ControlVideo: 无需训练的可控文本到视频生成

ControlVideo 是一种基于文本驱动扩散模型的、无需训练即可完成自然高效文本到视频生成，使用三个模块实现外观协调、帧插值以及分层采样，能够在轻松几分钟之内生成高质量的短视频和长视频。

May, 2023

基于扩散模型的可控文本到视频生成

本文提出了一种可控的文本到视频模型，名为 Video-ControlNet，它可以生成由控制信号（如边缘或深度图）条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验，并生成具有细粒度控制的高质量和连贯视频。

May, 2023

ControlVideo：为一键式文本到视频编辑增加有条件的控制

本文提出了 ControlVideo，一种基于文本指导的视频编辑方法，通过结合文本到图像扩散模型和 ControlNet，优化视频的保真度和时间一致性以与给定文本对齐，并使用复杂设计策略在源视频的关键帧和时间注意力上进行微调，量化结果证明了 ControlVideo 相比其他竞争算法具有更高的保真度和一致性。

May, 2023

Gen-L-Video：多文本到长视频生成与时域协同去噪

本文提出了一种称为 Gen-L-Video 的新方法，该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力，使其能够生成和编辑具有多个语义段的数百帧的长视频，而不需要额外的训练，从而极大地拓宽了视频扩散模型的生成和编辑能力。

May, 2023

Video ControlNet：条件图像扩散模型实现时域一致的虚拟到真实视频翻译

本研究提出了一种高效有效的方法，通过利用条件图像扩散模型实现长度可变视频中时间一致的合成到真实视频转换，同时保持视频的时空一致性。我们通过使用可用的合成视频的光流信息，通过联合噪声优化有效地最小化了时空不一致性，实现对多个合成图像生成的平行化。通过在各种综合基准上进行的大量实验证明了我们的方法的有效性，并且我们的方法不需要对扩散模型进行任何培训或微调。最后，我们证明了我们的方法在时空一致性和视觉质量方面均优于其他基线方法。

May, 2023

VideoControlNet：一个使用控制网络的扩散模型的运动引导视频到视频翻译框架

通过使用具有控制网络的扩散模型，在给定提示和输入视频的条件下，我们提出了一种新的运动引导视频到视频转换框架 VideoControlNet，以生成各种视频。通过使用运动信息来防止冗余区域的再生成以保持内容一致性。

Jul, 2023

使用扩展的注意力实现视频中的时态一致的对象编辑

使用预训练的图像修复扩散模型，通过替换自注意力模块以创建帧级依赖关系，我们提出了一种编辑视频的方法，以确保编辑信息在所有视频帧中保持一致，从而在对象重定向、对象替换和对象移除等多个视频编辑任务中展示了该策略的卓越性能。

Jun, 2024

视频生成的无需训练摄像机控制

我们提出了一种无需训练且稳健的解决方案，为现成的视频扩散模型提供摄像机运动控制。我们的方法不同于以前的工作，不需要在带有摄像机注释的数据集上进行有监督的微调或通过数据增强进行自监督训练。相反，它可以与大多数预训练的视频扩散模型插入和播放，并且只需一个图像或文本提示作为输入即可生成可控摄像机的视频。我们的工作灵感来自于中间隐藏变量对生成结果的布局先验，因此重新排列其中的噪点像素将重新分配输出内容。由于摄像机移动也可以被视为透视变化引起的像素重新排列，如果它们的噪点隐藏变量相应改变，视频可以按照特定的摄像机运动进行重新组织。基于此，我们提出了我们的方法 CamTrol，实现了对视频扩散模型的稳健摄像机控制。这通过两个阶段的过程实现。首先，我们在三维点云空间中建模图像布局重新排列通过显式摄像机运动。其次，我们使用一系列重新排列的图像形成的噪点隐藏变量的布局先验生成具有摄像机运动的视频。广泛的实验证明了我们的方法在控制生成视频的摄像机运动方面的鲁棒性。此外，我们展示了我们的方法在生成具有动态内容的三维旋转视频方面产生的令人印象深刻的结果。

Jun, 2024

为文本 - 图像扩散模型添加条件控制

提出一种神经网络框架 ControlNet 来控制大型预训练扩散模型以支持额外的输入条件，该模型能够以端到端的方式学习任务特定条件，并且学习具有鲁棒性，即使训练数据集很小（<50k）；此外，训练 ControlNet 的速度与调整扩散模型的速度相同，模型可以在个人设备上训练。也可以在强大的计算集群上进行训练，适用于大量（数百万至数十亿）的数据；控制网络可以与大型扩散模型一起使用，以启用诸如边缘地图、分割地图、关键点等条件输入，进一步丰富了控制大型扩散模型的方法，促进了相关应用的发展。

Feb, 2023

可控的带扩散模型的长图像动画

在计算机视觉中，从静态图像生成逼真的动画视频是一个重要的研究领域。本文介绍了一种基于运动先验和视频扩散模型的开放领域可控图像动画方法，能够实现对可移动区域的运动方向和速度的精确控制，同时在保持内容、场景和动作协调一致性的同时生成长度超过 100 帧的长时间视频。

May, 2024