MotionMaster:无需训练的视频生成摄像机运动转移
MotionClone 是一个无需训练的框架,通过时间注意力机制从参考视频中克隆运动以控制文本到视频生成,同时引入了区域感知的语义引导机制提升生成模型的空间关系和随机应变能力,实验结果显示 MotionClone 在全局摄像机运动和局部目标运动方面表现出色,并具有运动保真度高、文本对齐准确和时序一致等显著优势。
Jun, 2024
本研究通过主成分分析 (PC) 分析,揭示了视频扩散模型中稳健的运动感知特征,并通过提出的运动特征 (MOFT) 实现了无需训练的视频运动控制框架,为生成自然逼真的运动提供了竞争性能、架构无关的见解以及在各种下游任务中的适用性。
May, 2024
我们提出了一种无需训练且稳健的解决方案,为现成的视频扩散模型提供摄像机运动控制。我们的方法不同于以前的工作,不需要在带有摄像机注释的数据集上进行有监督的微调或通过数据增强进行自监督训练。相反,它可以与大多数预训练的视频扩散模型插入和播放,并且只需一个图像或文本提示作为输入即可生成可控摄像机的视频。我们的工作灵感来自于中间隐藏变量对生成结果的布局先验,因此重新排列其中的噪点像素将重新分配输出内容。由于摄像机移动也可以被视为透视变化引起的像素重新排列,如果它们的噪点隐藏变量相应改变,视频可以按照特定的摄像机运动进行重新组织。基于此,我们提出了我们的方法 CamTrol,实现了对视频扩散模型的稳健摄像机控制。这通过两个阶段的过程实现。首先,我们在三维点云空间中建模图像布局重新排列通过显式摄像机运动。其次,我们使用一系列重新排列的图像形成的噪点隐藏变量的布局先验生成具有摄像机运动的视频。广泛的实验证明了我们的方法在控制生成视频的摄像机运动方面的鲁棒性。此外,我们展示了我们的方法在生成具有动态内容的三维旋转视频方面产生的令人印象深刻的结果。
Jun, 2024
我们引入 Direct-a-Video,一个可以让用户独立指定一个或多个对象的运动和 / 或相机的移动,就像导演一个视频一样。通过使用模型的先验知识,我们提出了一种简单又有效的对象运动和相机移动解耦控制策略。我们还引入了新的时间交叉注意力层来解释定量的相机移动参数。通过在小规模数据集上自监督方式训练这些层,我们消除了显式运动注释的需求。我们的方法能够独立运作,并能够广泛适用于开放领域的场景。大量实验证明了我们方法的优越性和有效性。
Feb, 2024
我们提出了一种新颖的零样条移动物体轨迹控制框架 Motion-Zero,通过提供基于位置的先验来改善移动物体的外观稳定性和位置准确性,并利用 U-net 的注意力图在扩散模型的去噪过程中直接应用空间约束,从而进一步确保移动物体的位置和空间一致性,并通过引入移动注意力机制实现时序一致性的保证。这种方法可以灵活运用于各种最先进的视频扩散模型,无需任何训练过程,大量实验证明我们的方法可以控制物体的运动轨迹并生成高质量的视频。
Jan, 2024
通过引入双路径的 LoRAs 架构和一种新颖的去除外观影响的时间损失函数,作者提出了 MotionDirector 的方法,可以生成具有不同外观的自定义运动的视频,并支持混合不同视频的外观和运动以及给单个图像添加自定义动作。
Oct, 2023
该论文介绍了 MotionCtrl,这是一个用于视频生成的统一和灵活的运动控制器,通过有效和独立地控制相机运动和物体运动,实现更精细的运动控制和促进两种类型运动的灵活多样组合。
Dec, 2023
运用图像扩散提炼高保真生成的方法对视频扩散应用直接导致了公开视频数据集中视觉质量有限的帧质量不尽如人意的问题。研究旨在利用丰富的高质量图像数据提高视频扩散提炼的品质,同时改进帧外观。提出了一种称为运动一致模型 (MCM)的单阶段视频扩散提炼方法,通过分离运动和外观学习来改善视频扩散提炼。MCM 包括一个可以从视频教师模型中提炼运动的视频一致性模型和一种增强帧外观以匹配高质量图像数据的图像鉴别器。通过引入分离化的运动提炼和混合轨迹提炼来解决两个挑战:冲突的帧学习目标以及由于训练和推断中使用的视频样本质量不同而产生的训练 - 推断偏差。大量实验结果表明,MCM 达到了最先进的视频扩散提炼性能,并且方法可提高视频扩散模型的帧质量,能够生成具有高美感得分或特定风格的帧,而无需相应的视频数据。
Jun, 2024
本文描述了一种基于自监督学习的框架,可以将一个源图像中的对象根据驱动视频的运动进行动画处理,而不需要使用任何注释或有关特定对象的先前信息。使用一个经过训练的视频集合,我们的方法可以应用于此类对象的任何对象。
Feb, 2020