ControlNeXt: 有效且强大的图像和视频生成控制
本文提出了一种可控的文本到视频模型,名为Video-ControlNet,它可以生成由控制信号(如边缘或深度图)条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验,并生成具有细粒度控制的高质量和连贯视频。
May, 2023
图像合成领域取得了巨大的进展,在本文中,我们提出了一种新的控制架构 ControlNet-XS,它不受信息流动延迟的问题困扰,因此可以专注于学习控制任务。与现有的控制网络相比,我们的模型参数量少,推理和训练时间大约快两倍,生成的图像质量更高,控制精度更高。
Dec, 2023
我们引入Direct-a-Video,一个可以让用户独立指定一个或多个对象的运动和/或相机的移动,就像导演一个视频一样。通过使用模型的先验知识,我们提出了一种简单又有效的对象运动和相机移动解耦控制策略。我们还引入了新的时间交叉注意力层来解释定量的相机移动参数。通过在小规模数据集上自监督方式训练这些层,我们消除了显式运动注释的需求。我们的方法能够独立运作,并能够广泛适用于开放领域的场景。大量实验证明了我们方法的优越性和有效性。
Feb, 2024
Ctrl-Adapter是一种高效而多用途的框架,通过适应预训练的ControlNets(并改进视频的时间对齐)来为任何图像/视频扩散模型添加多样的控制,包括图像控制、视频控制、稀疏帧的视频控制、多条件控制、兼容不同的骨干模型、适应不可见的控制条件和视频编辑。Ctrl-Adapter有效地处理视频的时间一致性,通过训练适配器层,将预训练的ControlNet特征融合到不同的图像/视频扩散模型中。
Apr, 2024
在计算机视觉中,从静态图像生成逼真的动画视频是一个重要的研究领域。本文介绍了一种基于运动先验和视频扩散模型的开放领域可控图像动画方法,能够实现对可移动区域的运动方向和速度的精确控制,同时在保持内容、场景和动作协调一致性的同时生成长度超过100帧的长时间视频。
May, 2024
我们提出了一种无需训练且稳健的解决方案,为现成的视频扩散模型提供摄像机运动控制。我们的方法不同于以前的工作,不需要在带有摄像机注释的数据集上进行有监督的微调或通过数据增强进行自监督训练。相反,它可以与大多数预训练的视频扩散模型插入和播放,并且只需一个图像或文本提示作为输入即可生成可控摄像机的视频。我们的工作灵感来自于中间隐藏变量对生成结果的布局先验,因此重新排列其中的噪点像素将重新分配输出内容。由于摄像机移动也可以被视为透视变化引起的像素重新排列,如果它们的噪点隐藏变量相应改变,视频可以按照特定的摄像机运动进行重新组织。基于此,我们提出了我们的方法 CamTrol,实现了对视频扩散模型的稳健摄像机控制。这通过两个阶段的过程实现。首先,我们在三维点云空间中建模图像布局重新排列通过显式摄像机运动。其次,我们使用一系列重新排列的图像形成的噪点隐藏变量的布局先验生成具有摄像机运动的视频。广泛的实验证明了我们的方法在控制生成视频的摄像机运动方面的鲁棒性。此外,我们展示了我们的方法在生成具有动态内容的三维旋转视频方面产生的令人印象深刻的结果。
Jun, 2024
现代文本到视频合成模型展示了从文本描述中生成复杂视频的一致、逼真的能力。然而,大多数现有模型在相机运动的细粒度控制方面存在缺陷,这对于与内容创作、视觉效果和三维视觉相关的下游应用至关重要。最近,有新的方法展示了使用事先训练的基于U-Net的扩散模型以显式区分空间和时间生成的方式生成具有可控相机姿势的视频的能力。然而,目前不存在任何方法能够为处理综合了空间和时间信息的基于transformer的视频扩散模型提供相机控制。在这里,我们提出使用类似ControlNet的调节机制以及基于Plucker坐标的时空相机嵌入来控制三维相机的transformer视频模型。该方法经过在RealEstate10K数据集上微调后展示了最先进的可控视频生成性能。据我们所知,我们的工作是首次为基于transformer的视频扩散模型提供相机控制的方法。
Jul, 2024
本研究解决了现有可控生成方法对计算资源需求高和控制能力薄弱的问题。提出的ControlNeXt方法通过简化架构,显著减少训练中可学习参数,并结合交叉归一化技术,以实现更快的训练收敛。实验结果表明,该方法在图像和视频生成中都表现出强大的鲁棒性和效率。
Aug, 2024
本研究针对仅依赖文本指导的视频生成的局限性,提出了一种名为 EasyControl 的通用框架,该框架能够通过条件适配器传递和注入条件特征,从而以单一条件图控制视频生成。实验结果表明,该方法在多个验证数据集上的评估指标显著优于现有的先进方法,尤其在草图转视频生成任务中展现出卓越的性能。
Aug, 2024