MotionEditor: 通过内容感知扩散编辑视频动作
该研究提出了一种基于视频扩散模型的图像和视频编辑方法,利用时序信息和高分辨率信息生成与指导文本匹配的视频,并以完全时间关注和时间关注掩码联合完成模型的微调,实现了较好的编辑效果。
Feb, 2023
提出了一种用于视频运动编辑的轻量级评分引导扩散模型 MotionFollower,通过引入条件控制实现去噪过程,利用两个轻量级信号控制器进行姿势和外貌控制,设计了基于双分支架构的评分引导原则,维护背景和角色的外貌并改变运动细节,实验证明了 MotionFollower 在运动编辑上具有卓越的性能。
May, 2024
通过使用具有控制网络的扩散模型,在给定提示和输入视频的条件下,我们提出了一种新的运动引导视频到视频转换框架 VideoControlNet,以生成各种视频。通过使用运动信息来防止冗余区域的再生成以保持内容一致性。
Jul, 2023
本文介绍了一种名为 ReVideo 的视频重制方法,通过指定内容和运动,允许在特定区域进行精确的视频编辑。通过修改第一帧实现内容编辑,而基于轨迹的运动控制提供了直观的用户交互体验。通过逐步分离内容和运动控制的训练策略以及时空自适应融合模块,解决了内容和运动控制之间的任务耦合和训练不平衡问题。广泛的实验证明,ReVideo 在几个精确的视频编辑应用上表现出有希望的性能,包括:(1)在保持运动恒定的情况下局部改变视频内容,(2)保持内容不变并自定义新的运动轨迹,(3)修改内容和运动轨迹。该方法还可以无需特定训练地无缝扩展到多区域编辑,展示了它的灵活性和鲁棒性。
May, 2024
通过使用导向梯度的扩散模型生成图像,我们提出了一种零样本技术 —— 运动导向,它允许用户指定复杂的运动场并精确编辑图像中对象的布局、位置、姿态和形状。通过同时从扩散模型中采样和引导样本以实现低导向损失,我们可以获得经过运动编辑的高质量图像。
Jan, 2024
提出一种新的运动感知视频生成 (MoVideo) 框架,从视频深度和光流两个方面考虑运动,并通过稀疏 - 时间扩散模型生成视频深度和光流,然后在潜在空间中生成视频,最后利用光流对不同帧进行对齐和细化,实现了文本到视频和图像到视频生成中最先进的结果。
Nov, 2023
通过引入双路径的 LoRAs 架构和一种新颖的去除外观影响的时间损失函数,作者提出了 MotionDirector 的方法,可以生成具有不同外观的自定义运动的视频,并支持混合不同视频的外观和运动以及给单个图像添加自定义动作。
Oct, 2023
本研究通过主成分分析 (PC) 分析,揭示了视频扩散模型中稳健的运动感知特征,并通过提出的运动特征 (MOFT) 实现了无需训练的视频运动控制框架,为生成自然逼真的运动提供了竞争性能、架构无关的见解以及在各种下游任务中的适用性。
May, 2024
MotionCrafter 是一种新型一次性实例引导的动作定制方法,通过并行的时空架构注入参考动作到基础模型的时间部分,同时独立调整空间模块以进行角色或风格控制,以增强动作与外观的解耦,进而维持多样性,量化和定性实验证明了 MotionCrafter 在整合动态动作、保持一致性和提供广泛外观生成能力方面的成功。
Dec, 2023