VMC: 使用时间注意力调适进行视频动作定制的文本到视频扩散模型

Dec, 2023

VMC: 使用时间注意力调适进行视频动作定制的文本到视频扩散模型

VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models

Hyeonho Jeong, Geon Yeong Park, Jong Chul Ye

TL;DR文本到视频扩散模型大幅推进了视频生成，但个性化定制这些模型以生成具有定制运动的视频对其提出了重大挑战，主要困难包括准确复制目标视频的运动及创建多样化的视觉变化。为解决这些问题，我们提出了一种名为视频运动定制（VMC）框架的新一键调整方法，用于适应视频扩散模型内的时间注意力层。该方法引入了一种新颖的运动 “蒸馏” 目标，利用连续帧之间的残差向量作为运动参考。扩散过程保留低频运动轨迹，同时减少图像空间中高频运动无关噪声。我们在各种真实运动和场景下将该方法与最先进的视频生成模型进行了验证。我们的代码、数据和项目演示可以在此 https URL 找到。

Abstract

text-to-video diffusion models have advanced video generation significantly. However, customizing these models to generate videos with tailored motions presents a substantial challenge. In specific, they encounte

text-to-video diffusion models video generation motion customization video motion customization framework temporal attention layers

发现论文，激发创造

一键式动作定制的文本到视频扩散模型

通过低秩适应的时空注意力层，该文献介绍了一种用于一次性运动定制的自定义视频模型，可以从单个参考视频中学习运动信息，以适应新的主题和场景，并可轻松扩展到多个下游任务。

Feb, 2024

文本到视频扩散模型中的定制动作

通过扩展现有的文本到视频生成模型，我们引入了一种方法来增加定制动作，以超越原始训练数据中所描绘的动作。通过利用几个呈现特定动作的视频样本作为输入，我们的方法学习并概括了多样化的、与文本指定情景相关的输入动作模式。

Dec, 2023

MotionDirector: 文本到视频扩散模型的动作定制

通过引入双路径的 LoRAs 架构和一种新颖的去除外观影响的时间损失函数，作者提出了 MotionDirector 的方法，可以生成具有不同外观的自定义运动的视频，并支持混合不同视频的外观和运动以及给单个图像添加自定义动作。

Oct, 2023

MotionCrafter：一次性定制扩散模型的运动

MotionCrafter 是一种新型一次性实例引导的动作定制方法，通过并行的时空架构注入参考动作到基础模型的时间部分，同时独立调整空间模块以进行角色或风格控制，以增强动作与外观的解耦，进而维持多样性，量化和定性实验证明了 MotionCrafter 在整合动态动作、保持一致性和提供广泛外观生成能力方面的成功。

Dec, 2023

视频定制的运动反转

本研究提出了一种新颖的方法，用于在视频生成中进行运动定制，解决了视频生成模型中对运动表示的彻底探索的普遍差距。我们介绍了 Motion Embeddings，这是从给定视频中衍生出的一组明确、时间连贯的一维嵌入，旨在与视频扩散模型的时间转换模块无缝集成，通过调节帧间的自注意力计算而不损失空间完整性。我们的方法提供了一种简洁高效的运动表示解决方案，并通过在嵌入空间中进行向量运算，实现了对运动特征的复杂操作定制。此外，我们还发现了视频生成模型中的时间差异，指的是不同运动模块处理帧间时间关系的变化。我们利用这种理解来优化我们的运动嵌入集成。我们的贡献包括为定制任务引入定制运动嵌入、揭示视频模型中的时间处理差异以及通过大量实验证明我们方法的实际优势和有效性。

Mar, 2024

VIDM: 视频隐式扩散模型

该研究提出基于扩散模型的视频生成方法，通过隐式条件建模来模拟运动效果，并提出多种策略来优化生成视频的质量。实验证明，该方法在 FVD 得分和视觉质量方面明显优于现有的以生成对抗网络为基础的方法。

Dec, 2022

运动乐章：将静态图像转化为动态视频

通过将语义和动作线索整合到扩散模型中，我们引入了一种用于视频生成的新方法，它显著提升了视频质量、动作精度和语义连贯性。

Mar, 2024

魔我：身份特定视频定制扩散

提出了一个简单而有效的主题身份可控视频生成框架，称为视频定制扩散（VCD）框架，通过强化身份信息提取、注入帧间相关性并使用三个新的关键组件，实现了稳定且高质量的视频生成，对身份保留到很大程度。

Feb, 2024

Dreamix：视频传播模型是通用视频编辑器

该研究提出了一种基于视频扩散模型的图像和视频编辑方法，利用时序信息和高分辨率信息生成与指导文本匹配的视频，并以完全时间关注和时间关注掩码联合完成模型的微调，实现了较好的编辑效果。

Feb, 2023

MoVideo：使用扩散模型的运动感知视频生成

提出一种新的运动感知视频生成 (MoVideo) 框架，从视频深度和光流两个方面考虑运动，并通过稀疏 - 时间扩散模型生成视频深度和光流，然后在潜在空间中生成视频，最后利用光流对不同帧进行对齐和细化，实现了文本到视频和图像到视频生成中最先进的结果。

Nov, 2023