应用条件控制技术于文本到视频模型的未来草图

May, 2023

应用条件控制技术于文本到视频模型的未来草图

Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models

Rohan Dhesikan, Vignesh Rajmohan

TL;DR本文介绍了一种将零 - shot 文本 - 视频生成与 ControlNet 相结合的新方法，以生成更精准地与用户预期运动相符的高质量视频内容，并提供了相关资源包以促进进一步研究和应用。

Abstract

The proliferation of video content demands efficient and flexible neural network based approaches for generating new video content. In this paper, we propose a novel approach that combines zero-shot →

video content neural networks text-to-video generation controlnet motion

发现论文，激发创造

ControlVideo：为一键式文本到视频编辑增加有条件的控制

本文提出了 ControlVideo，一种基于文本指导的视频编辑方法，通过结合文本到图像扩散模型和 ControlNet，优化视频的保真度和时间一致性以与给定文本对齐，并使用复杂设计策略在源视频的关键帧和时间注意力上进行微调，量化结果证明了 ControlVideo 相比其他竞争算法具有更高的保真度和一致性。

May, 2023

基于扩散模型的可控文本到视频生成

本文提出了一种可控的文本到视频模型，名为 Video-ControlNet，它可以生成由控制信号（如边缘或深度图）条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验，并生成具有细粒度控制的高质量和连贯视频。

May, 2023

ControlVideo: 无需训练的可控文本到视频生成

ControlVideo 是一种基于文本驱动扩散模型的、无需训练即可完成自然高效文本到视频生成，使用三个模块实现外观协调、帧插值以及分层采样，能够在轻松几分钟之内生成高质量的短视频和长视频。

May, 2023

ConditionVideo: 无需训练的条件引导文本到视频生成

在本文中，我们介绍了一种无需训练的文本到视频生成方法，通过利用现有的文本到图像生成方法生成逼真的动态视频，这种方法以条件、视频和输入文本为基础。我们的方法将运动表示明确地分为条件引导和场景运动组成，并引入了稀疏双向时空注意力来改善时序一致性。与其他比较方法相比，我们的方法在帧一致性、剪辑评分和条件精度方面表现出卓越性能。

Oct, 2023

RealCraft：关注控制：零样本长视频编辑的解决方案

在这篇论文中，我们提出了一种基于注意力控制的方法，名为 RealCraft，用于零样本编辑实际视频。通过在提示和帧之间进行对象为中心的处理，并在帧内使用时空注意力，我们实现了精确的形状编辑以及增强的一致性。我们的模型可以直接与稳定的扩散一起使用，并且不需要额外的局部信息。我们展示了我们的零样本注意控制方法在各种长度的视频中进行定位、高保真度、形状精确和时间一致的编辑。

Dec, 2023

LOVECon：基于文本的无需训练的长视频编辑与 ControlNet 控制

本研究旨在建立一个简单而有效的基于训练无关扩散模型的长视频编辑基线，通过分割长视频并采用新颖的跨窗口注意机制，以确保全局风格的一致性和窗口之间的平滑性。通过 DDIM 反演从源视频中提取信息，并将结果整合到生成的潜在状态中，同时结合视频帧插值模型以减轻帧级闪烁问题。经过广泛的实证研究，验证了我们的方法在替换前景物体属性、风格转移和背景替换等场景下相对竞争基准的卓越有效性。

Oct, 2023

FlowZero：基于 LLM 驱动的动态场景语法的零样本文本到视频合成

Text-to-video generation using FlowZero, a framework that combines Large Language Models (LLMs) with image diffusion models, achieves improvement in zero-shot video synthesis by generating coherent videos with vivid motion.

Nov, 2023

零样本文本指导的视频到视频转换

本研究提出了一种基于零样本文本引导的视频到视频转换框架来适应图像模型到视频的应用，在形状、纹理和颜色上强制执行分层的跨帧约束，实现低成本下的全局样式和局部纹理的时空一致性。

Jun, 2023

TI2V-Zero: 文本到视频扩散模型中的零样本图像调节

提出了 TI2V-Zero：一种无需优化或微调的零样本方法，通过使用预训练的文本到视频扩散模型，使其能够在给定图像的条件下生成实际视频。该方法使用 “重复滑动” 策略来引导视频生成，并提供了一种保持视觉细节的新合成帧初始化和重新采样技术，从而实现视频的逐帧合成。TI2V-Zero 在领域特定和开放领域数据集上的实验证明了其优越性能，并且能够无缝扩展到其他任务和支持长视频生成。

Apr, 2024

跟随你的姿势：使用无姿态视频进行姿势引导的文本到视频生成

本研究提出一种新的双阶段训练方法，可利用易获得的数据集和预训练的 text-to-image（T2I）模型，生成可编辑和姿态可控的字符视频。这种方法成功地生成了连续的姿态可控字符视频，同时保持了预训练 T2I 模型的编辑和概念构成能力。

Apr, 2023