视频扩散模型:训练免费的动作解释器和控制器
我们提出了一种无需训练的视频运动转移模型 (COMD),通过将摄像机运动从源视频中分离并转移到新的视频中,实现了对摄像机运动的灵活控制。我们通过提出一种单次摄像机运动分离方法和少次摄像机运动分离方法,从单个源视频和多个具有相似摄像机运动的视频中提取摄像机运动。最后,我们提出了一种运动组合方法,将不同类型的摄像机运动结合起来,使我们的模型具有更加可控和灵活的摄像机控制。
Apr, 2024
提出一种新的运动感知视频生成 (MoVideo) 框架,从视频深度和光流两个方面考虑运动,并通过稀疏 - 时间扩散模型生成视频深度和光流,然后在潜在空间中生成视频,最后利用光流对不同帧进行对齐和细化,实现了文本到视频和图像到视频生成中最先进的结果。
Nov, 2023
该研究提出了一种基于视频扩散模型的图像和视频编辑方法,利用时序信息和高分辨率信息生成与指导文本匹配的视频,并以完全时间关注和时间关注掩码联合完成模型的微调,实现了较好的编辑效果。
Feb, 2023
通过使用具有控制网络的扩散模型,在给定提示和输入视频的条件下,我们提出了一种新的运动引导视频到视频转换框架 VideoControlNet,以生成各种视频。通过使用运动信息来防止冗余区域的再生成以保持内容一致性。
Jul, 2023
通过引入双路径的 LoRAs 架构和一种新颖的去除外观影响的时间损失函数,作者提出了 MotionDirector 的方法,可以生成具有不同外观的自定义运动的视频,并支持混合不同视频的外观和运动以及给单个图像添加自定义动作。
Oct, 2023
该研究提出基于扩散模型的视频生成方法,通过隐式条件建模来模拟运动效果,并提出多种策略来优化生成视频的质量。实验证明,该方法在 FVD 得分和视觉质量方面明显优于现有的以生成对抗网络为基础的方法。
Dec, 2022
MotionEditor 是一种扩散模型,用于视频动作编辑,通过引入内容感知的运动适配器和两分支架构实现编辑过程中保留原始背景和主角外貌。
Nov, 2023
通过扩展现有的文本到视频生成模型,我们引入了一种方法来增加定制动作,以超越原始训练数据中所描绘的动作。通过利用几个呈现特定动作的视频样本作为输入,我们的方法学习并概括了多样化的、与文本指定情景相关的输入动作模式。
Dec, 2023
本文提出了 MotionDiffuser 模型,其能够学习多个交通参与者之间联合分布的多模态表示,在实现高效计算精确样本概率的前提下,提出了一种压缩轨迹表示以提高模型性能,并结合约束抽样框架,以应用于强制束缚和创造定制化模拟场景等应用,最终在 Waymo 数据集上实现了最先进的多代理运动预测结果。
Jun, 2023