EasyControl:将 ControlNet 转移到视频扩散以实现可控生成和插值
ControlVideo 是一种基于文本驱动扩散模型的、无需训练即可完成自然高效文本到视频生成,使用三个模块实现外观协调、帧插值以及分层采样,能够在轻松几分钟之内生成高质量的短视频和长视频。
May, 2023
本文提出了一种可控的文本到视频模型,名为Video-ControlNet,它可以生成由控制信号(如边缘或深度图)条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验,并生成具有细粒度控制的高质量和连贯视频。
May, 2023
通过使用具有控制网络的扩散模型,在给定提示和输入视频的条件下,我们提出了一种新的运动引导视频到视频转换框架VideoControlNet,以生成各种视频。通过使用运动信息来防止冗余区域的再生成以保持内容一致性。
Jul, 2023
DragNUWA是一个开放域扩散式视频生成模型,通过同时引入文本、图像和轨迹信息,提供语义、空间和时间层面的精细控制视频内容。该模型通过轨迹采样器、多尺度融合和自适应训练策略解决现有研究中有限的开放域轨迹控制问题,实验证明DragNUWA在视频生成中具有卓越的精细控制性能。
Aug, 2023
Ctrl-Adapter是一种高效而多用途的框架,通过适应预训练的ControlNets(并改进视频的时间对齐)来为任何图像/视频扩散模型添加多样的控制,包括图像控制、视频控制、稀疏帧的视频控制、多条件控制、兼容不同的骨干模型、适应不可见的控制条件和视频编辑。Ctrl-Adapter有效地处理视频的时间一致性,通过训练适配器层,将预训练的ControlNet特征融合到不同的图像/视频扩散模型中。
Apr, 2024
我们提出了一种无需训练且稳健的解决方案,为现成的视频扩散模型提供摄像机运动控制。我们的方法不同于以前的工作,不需要在带有摄像机注释的数据集上进行有监督的微调或通过数据增强进行自监督训练。相反,它可以与大多数预训练的视频扩散模型插入和播放,并且只需一个图像或文本提示作为输入即可生成可控摄像机的视频。我们的工作灵感来自于中间隐藏变量对生成结果的布局先验,因此重新排列其中的噪点像素将重新分配输出内容。由于摄像机移动也可以被视为透视变化引起的像素重新排列,如果它们的噪点隐藏变量相应改变,视频可以按照特定的摄像机运动进行重新组织。基于此,我们提出了我们的方法 CamTrol,实现了对视频扩散模型的稳健摄像机控制。这通过两个阶段的过程实现。首先,我们在三维点云空间中建模图像布局重新排列通过显式摄像机运动。其次,我们使用一系列重新排列的图像形成的噪点隐藏变量的布局先验生成具有摄像机运动的视频。广泛的实验证明了我们的方法在控制生成视频的摄像机运动方面的鲁棒性。此外,我们展示了我们的方法在生成具有动态内容的三维旋转视频方面产生的令人印象深刻的结果。
Jun, 2024
现代文本到视频合成模型展示了从文本描述中生成复杂视频的一致、逼真的能力。然而,大多数现有模型在相机运动的细粒度控制方面存在缺陷,这对于与内容创作、视觉效果和三维视觉相关的下游应用至关重要。最近,有新的方法展示了使用事先训练的基于U-Net的扩散模型以显式区分空间和时间生成的方式生成具有可控相机姿势的视频的能力。然而,目前不存在任何方法能够为处理综合了空间和时间信息的基于transformer的视频扩散模型提供相机控制。在这里,我们提出使用类似ControlNet的调节机制以及基于Plucker坐标的时空相机嵌入来控制三维相机的transformer视频模型。该方法经过在RealEstate10K数据集上微调后展示了最先进的可控视频生成性能。据我们所知,我们的工作是首次为基于transformer的视频扩散模型提供相机控制的方法。
Jul, 2024
本研究解决了现有可控生成方法对计算资源需求高和控制能力薄弱的问题。提出的ControlNeXt方法通过简化架构,显著减少训练中可学习参数,并结合交叉归一化技术,以实现更快的训练收敛。实验结果表明,该方法在图像和视频生成中都表现出强大的鲁棒性和效率。
Aug, 2024
本研究解决了现有可控生成方法在计算资源与控制精度上的不足,提出了ControlNeXt,一种高效的图像和视频生成控制方法。通过设计简洁的架构和减少学习参数,显著提高了训练效率和控制能力,实验结果表明该方法在多种基础模型上均表现出色,有望推动可控生成技术的发展。
Aug, 2024