MVOC: 一种无需训练的多视频对象组合方法与扩散模型
通过对扩散逆变和交叉帧注意力进行简单而有效的修改,本文提出了对象中心扩散(OCD)技术来大幅减少记忆和计算成本,并在合成质量相近的情况下实现了高达 10 倍的延迟降低。
Jan, 2024
文本到视频扩散模型大幅推进了视频生成,但个性化定制这些模型以生成具有定制运动的视频对其提出了重大挑战,主要困难包括准确复制目标视频的运动及创建多样化的视觉变化。为解决这些问题,我们提出了一种名为视频运动定制(VMC)框架的新一键调整方法,用于适应视频扩散模型内的时间注意力层。该方法引入了一种新颖的运动 “蒸馏” 目标,利用连续帧之间的残差向量作为运动参考。扩散过程保留低频运动轨迹,同时减少图像空间中高频运动无关噪声。我们在各种真实运动和场景下将该方法与最先进的视频生成模型进行了验证。我们的代码、数据和项目演示可以在此 https URL 找到。
Dec, 2023
提出一种新的运动感知视频生成 (MoVideo) 框架,从视频深度和光流两个方面考虑运动,并通过稀疏 - 时间扩散模型生成视频深度和光流,然后在潜在空间中生成视频,最后利用光流对不同帧进行对齐和细化,实现了文本到视频和图像到视频生成中最先进的结果。
Nov, 2023
我们提出了一种无需训练的视频运动转移模型 (COMD),通过将摄像机运动从源视频中分离并转移到新的视频中,实现了对摄像机运动的灵活控制。我们通过提出一种单次摄像机运动分离方法和少次摄像机运动分离方法,从单个源视频和多个具有相似摄像机运动的视频中提取摄像机运动。最后,我们提出了一种运动组合方法,将不同类型的摄像机运动结合起来,使我们的模型具有更加可控和灵活的摄像机控制。
Apr, 2024
该研究提出基于扩散模型的视频生成方法,通过隐式条件建模来模拟运动效果,并提出多种策略来优化生成视频的质量。实验证明,该方法在 FVD 得分和视觉质量方面明显优于现有的以生成对抗网络为基础的方法。
Dec, 2022
提出了一种新的视频伪装目标检测 (VCOD) 框架,可以利用短期动态和长期时间一致性来检测视频帧中的伪装目标,采用单一优化框架统一了运动估计和对象分割,并使用空间 - 时间变换器从而有效地处理视频的时间动态,提供了一个名为 MoCA-Mask 的大规模 VCOD 数据集,为该方向的研究建立了综合性的基准测试。
Mar, 2022
通过使用预训练的图像到视频模型,我们介绍了一种新颖而通用的方法,将图像编辑工具的适用范围扩展到视频中,通过从单个帧到整个视频的传播编辑来处理全局编辑,局部编辑和适度形状变化,并且通过细粒度的注意力匹配来实现精确的调整,同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能,并证明其能够产生高质量、时间上连续的输出。
May, 2024
该研究提出了一种基于视频扩散模型的图像和视频编辑方法,利用时序信息和高分辨率信息生成与指导文本匹配的视频,并以完全时间关注和时间关注掩码联合完成模型的微调,实现了较好的编辑效果。
Feb, 2023