分层可控视频生成

Nov, 2021

Layered Controllable Video Generation

Jiahui Huang, Yuhe Jin, Kwang Moo Yi, Leonid Sigal

TL;DR本文提出了一种分层可控的视频生成方法，其中用户可以通过简单操作前景掩码来控制视频生成过程，以此实现对视频生成的更加精细的控制。该方法采用两阶段学习，第一阶段通过前景尺寸先验和 VQ-VAE 生成器学习如何将帧分离为前景和背景层，并在这些层的条件下生成下一帧；第二阶段通过拟合参数化控制，微调网络以预测后续帧中的MASK情况。实验表明，该方法拥有更好的控制效果，同时在两个基准数据集上实现了最先进的性能。

Abstract

We introduce layered controllable video generation, where we, without any supervision, decompose the initial frame of a video into foreground and background layers, with which the user can control the video generation process by simply manipulating the foreground mask. The key challeng

发现论文，激发创造

点对点视频生成

提出一种通过两个控制点(起始和结束帧)控制生成过程的视频生成方法，采用跳帧训练策略并最大化修改的条件数据似然下限，实验结果表明该方法在动态长度生成等多个场景下具有显著的潜力和优点。

Apr, 2019

可控制的注意力结构分层视频分解

本文介绍了一种新的结构神经网络体系结构，能够将视频分解成自然层，并控制关注哪些分离的层，同时演示了该方法的有效性和使用情况，如去除反射和在杂乱场景中的动作识别。

Oct, 2019

ControlVideo: 无需训练的可控文本到视频生成

ControlVideo 是一种基于文本驱动扩散模型的、无需训练即可完成自然高效文本到视频生成，使用三个模块实现外观协调、帧插值以及分层采样，能够在轻松几分钟之内生成高质量的短视频和长视频。

May, 2023

基于扩散模型的可控文本到视频生成

本文提出了一种可控的文本到视频模型，名为Video-ControlNet，它可以生成由控制信号（如边缘或深度图）条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验，并生成具有细粒度控制的高质量和连贯视频。

May, 2023

细粒度可控视频生成：通过物体外观和上下文

通过细粒度可控的视频生成（FACTOR）方法，基于文本提示和细粒度控制信号，我们的模型实现了对象外观和上下文（包括位置和类别）的详细控制。相比于依赖密集控制信号如边缘图的现有方法，我们提供了更直观和用户友好的界面，允许对象级细粒度控制，而且无需微调即可实现对象外观的可控性，为用户减少了每个主题的优化工作量。在标准基准数据集和用户提供的输入上进行了广泛实验，验证了我们的模型在可控性指标上相对竞争对手方法取得了70%的改进。

Dec, 2023

Ctrl-V: 用边界框控制的对象动作实现更高保真度的视频生成

使用像素级渲染的二维或三维边界框作为条件，提出了一种可控视频生成模型，并创建了一个边界框预测器，可以预测25帧剪辑中每帧的多达15个边界框。在KITTI、Virtual-KITTI 2和BDD100k等三个著名视频数据集上进行了实验证明。

Jun, 2024

ControlNeXt：强大且高效的图像和视频生成控制

本研究解决了现有可控生成方法对计算资源需求高和控制能力薄弱的问题。提出的ControlNeXt方法通过简化架构，显著减少训练中可学习参数，并结合交叉归一化技术，以实现更快的训练收敛。实验结果表明，该方法在图像和视频生成中都表现出强大的鲁棒性和效率。

Aug, 2024

ControlNeXt: 有效且强大的图像和视频生成控制

本研究解决了现有可控生成方法在计算资源与控制精度上的不足，提出了ControlNeXt，一种高效的图像和视频生成控制方法。通过设计简洁的架构和减少学习参数，显著提高了训练效率和控制能力，实验结果表明该方法在多种基础模型上均表现出色，有望推动可控生成技术的发展。

Aug, 2024

EasyControl：将 ControlNet 转移到视频扩散以实现可控生成和插值

本研究针对仅依赖文本指导的视频生成的局限性，提出了一种名为 EasyControl 的通用框架，该框架能够通过条件适配器传递和注入条件特征，从而以单一条件图控制视频生成。实验结果表明，该方法在多个验证数据集上的评估指标显著优于现有的先进方法，尤其在草图转视频生成任务中展现出卓越的性能。

Aug, 2024

COMUNI：基于扩散的视频生成中常见和独特视频信号的分解

本研究解决了视频生成中冗余建模常见信号的问题，提出了一种新颖的扩散基础框架COMUNI。该方法通过分解视频信号的常见性和独特性，显著降低了生成模型的计算复杂度，实验结果表明分解信号对视频生成的有效性与必要性。

Oct, 2024