MVOC: 一种无需训练的多视频对象组合方法与扩散模型

Jun, 2024

MVOC: 一种无需训练的多视频对象组合方法与扩散模型

MVOC: a training-free multiple video object composition method with diffusion models

Wei Wang, Yaosen Chen, Yuegen Liu, Qi Yuan, Shubin Yang...

TL;DR基于扩散模型的视频多目标合成方法通过图像编辑和视频生成模型在保持物体运动和身份连贯性的同时引入物体之间的相互作用效果，从而实现了视频合成的物理和谐。

Abstract

video composition is the core task of video editing. Although image composition based on diffusion models has been highly successful, it is not straightforward to extend the achievement to →

video composition diffusion models video object composition multiple video object composition image editing methods

发现论文，激发创造

面向对象的扩散技术在视频编辑中的高效应用

通过对扩散逆变和交叉帧注意力进行简单而有效的修改，本文提出了对象中心扩散（OCD）技术来大幅减少记忆和计算成本，并在合成质量相近的情况下实现了高达 10 倍的延迟降低。

Jan, 2024

VASE：真实视频的物体中心外观和形状操作

通过引入基于对象的框架，我们的研究工作在图像驱动的视频编辑任务中表现出与最先进方法相似的性能，并展示了新的形状编辑能力。

Jan, 2024

VMC: 使用时间注意力调适进行视频动作定制的文本到视频扩散模型

文本到视频扩散模型大幅推进了视频生成，但个性化定制这些模型以生成具有定制运动的视频对其提出了重大挑战，主要困难包括准确复制目标视频的运动及创建多样化的视觉变化。为解决这些问题，我们提出了一种名为视频运动定制（VMC）框架的新一键调整方法，用于适应视频扩散模型内的时间注意力层。该方法引入了一种新颖的运动 “蒸馏” 目标，利用连续帧之间的残差向量作为运动参考。扩散过程保留低频运动轨迹，同时减少图像空间中高频运动无关噪声。我们在各种真实运动和场景下将该方法与最先进的视频生成模型进行了验证。我们的代码、数据和项目演示可以在此 https URL 找到。

Dec, 2023

MoVideo：使用扩散模型的运动感知视频生成

提出一种新的运动感知视频生成 (MoVideo) 框架，从视频深度和光流两个方面考虑运动，并通过稀疏 - 时间扩散模型生成视频深度和光流，然后在潜在空间中生成视频，最后利用光流对不同帧进行对齐和细化，实现了文本到视频和图像到视频生成中最先进的结果。

Nov, 2023

MotionMaster：无需训练的视频生成摄像机运动转移

我们提出了一种无需训练的视频运动转移模型 (COMD)，通过将摄像机运动从源视频中分离并转移到新的视频中，实现了对摄像机运动的灵活控制。我们通过提出一种单次摄像机运动分离方法和少次摄像机运动分离方法，从单个源视频和多个具有相似摄像机运动的视频中提取摄像机运动。最后，我们提出了一种运动组合方法，将不同类型的摄像机运动结合起来，使我们的模型具有更加可控和灵活的摄像机控制。

Apr, 2024

VIDM: 视频隐式扩散模型

该研究提出基于扩散模型的视频生成方法，通过隐式条件建模来模拟运动效果，并提出多种策略来优化生成视频的质量。实验证明，该方法在 FVD 得分和视觉质量方面明显优于现有的以生成对抗网络为基础的方法。

Dec, 2022

视频伪装目标检测隐式运动处理

提出了一种新的视频伪装目标检测 (VCOD) 框架，可以利用短期动态和长期时间一致性来检测视频帧中的伪装目标，采用单一优化框架统一了运动估计和对象分割，并使用空间 - 时间变换器从而有效地处理视频的时间动态，提供了一个名为 MoCA-Mask 的大规模 VCOD 数据集，为该方向的研究建立了综合性的基准测试。

Mar, 2022

无需训练的基于预训练扩散模型的语义视频合成

通过使用一个预训练的扩散模型，处理具有更大语义差异的复合视频，我们的研究提出了一个无需训练的流程，以确保输出的视觉协调性和跨帧连贯性。

Jan, 2024

I2VEdit: 通过图像到视频扩散模型进行首帧引导视频编辑

通过使用预训练的图像到视频模型，我们介绍了一种新颖而通用的方法，将图像编辑工具的适用范围扩展到视频中，通过从单个帧到整个视频的传播编辑来处理全局编辑，局部编辑和适度形状变化，并且通过细粒度的注意力匹配来实现精确的调整，同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能，并证明其能够产生高质量、时间上连续的输出。

May, 2024

Dreamix：视频传播模型是通用视频编辑器

该研究提出了一种基于视频扩散模型的图像和视频编辑方法，利用时序信息和高分辨率信息生成与指导文本匹配的视频，并以完全时间关注和时间关注掩码联合完成模型的微调，实现了较好的编辑效果。

Feb, 2023