ControlVideo: 无需训练的可控文本到视频生成
本文提出了一种可控的文本到视频模型,名为 Video-ControlNet,它可以生成由控制信号(如边缘或深度图)条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验,并生成具有细粒度控制的高质量和连贯视频。
May, 2023
本文提出了 ControlVideo,一种基于文本指导的视频编辑方法,通过结合文本到图像扩散模型和 ControlNet,优化视频的保真度和时间一致性以与给定文本对齐,并使用复杂设计策略在源视频的关键帧和时间注意力上进行微调,量化结果证明了 ControlVideo 相比其他竞争算法具有更高的保真度和一致性。
May, 2023
本研究旨在建立一个简单而有效的基于训练无关扩散模型的长视频编辑基线,通过分割长视频并采用新颖的跨窗口注意机制,以确保全局风格的一致性和窗口之间的平滑性。通过 DDIM 反演从源视频中提取信息,并将结果整合到生成的潜在状态中,同时结合视频帧插值模型以减轻帧级闪烁问题。经过广泛的实证研究,验证了我们的方法在替换前景物体属性、风格转移和背景替换等场景下相对竞争基准的卓越有效性。
Oct, 2023
在本文中,我们介绍了一种无需训练的文本到视频生成方法,通过利用现有的文本到图像生成方法生成逼真的动态视频,这种方法以条件、视频和输入文本为基础。我们的方法将运动表示明确地分为条件引导和场景运动组成,并引入了稀疏双向时空注意力来改善时序一致性。与其他比较方法相比,我们的方法在帧一致性、剪辑评分和条件精度方面表现出卓越性能。
Oct, 2023
MotionClone 是一个无需训练的框架,通过时间注意力机制从参考视频中克隆运动以控制文本到视频生成,同时引入了区域感知的语义引导机制提升生成模型的空间关系和随机应变能力,实验结果显示 MotionClone 在全局摄像机运动和局部目标运动方面表现出色,并具有运动保真度高、文本对齐准确和时序一致等显著优势。
Jun, 2024
视频生成的研究最近取得了巨大的进展,使得高质量的视频可以从文字提示或图像中生成。为视频生成过程添加控制是一个重要的目标,并且最近的方法通过在相机轨迹上条件化视频生成模型来朝着这个目标迈进。然而,从多个不同相机轨迹生成相同场景的视频仍然具有挑战性。解决这个多视频生成问题可以实现可编辑相机轨迹的大规模三维场景生成等应用。我们引入了协作视频扩散(CVD)作为实现这一愿景的重要一步。CVD 框架包括一个新颖的跨视频同步模块,通过使用一个极线注意机制促进不同相机姿态下相同视频的对应帧之间的一致性。经过大量实验证明,在针对视频生成的最先进相机控制模块的基础上训练,CVD 生成的从不同相机轨迹渲染的多个视频比基准线具有显著更好的一致性。
May, 2024
通过引入 UniCtrl 方法,我们解决了使用文本提示作为控制条件时保持一致性的挑战,提升了文本到视频模型生成的视频的时空一致性和运动多样性,实验证实了其效果和普适性。
Mar, 2024
通过使用具有控制网络的扩散模型,在给定提示和输入视频的条件下,我们提出了一种新的运动引导视频到视频转换框架 VideoControlNet,以生成各种视频。通过使用运动信息来防止冗余区域的再生成以保持内容一致性。
Jul, 2023
我们提出了一种无需训练且稳健的解决方案,为现成的视频扩散模型提供摄像机运动控制。我们的方法不同于以前的工作,不需要在带有摄像机注释的数据集上进行有监督的微调或通过数据增强进行自监督训练。相反,它可以与大多数预训练的视频扩散模型插入和播放,并且只需一个图像或文本提示作为输入即可生成可控摄像机的视频。我们的工作灵感来自于中间隐藏变量对生成结果的布局先验,因此重新排列其中的噪点像素将重新分配输出内容。由于摄像机移动也可以被视为透视变化引起的像素重新排列,如果它们的噪点隐藏变量相应改变,视频可以按照特定的摄像机运动进行重新组织。基于此,我们提出了我们的方法 CamTrol,实现了对视频扩散模型的稳健摄像机控制。这通过两个阶段的过程实现。首先,我们在三维点云空间中建模图像布局重新排列通过显式摄像机运动。其次,我们使用一系列重新排列的图像形成的噪点隐藏变量的布局先验生成具有摄像机运动的视频。广泛的实验证明了我们的方法在控制生成视频的摄像机运动方面的鲁棒性。此外,我们展示了我们的方法在生成具有动态内容的三维旋转视频方面产生的令人印象深刻的结果。
Jun, 2024
本文提出了一种称为 Gen-L-Video 的新方法,该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力,使其能够生成和编辑具有多个语义段的数百帧的长视频,而不需要额外的训练,从而极大地拓宽了视频扩散模型的生成和编辑能力。
May, 2023