Direct-a-Video: 用户定制化视频生成与用户指导的摄像机移动和物体运动

Feb, 2024

Direct-a-Video: 用户定制化视频生成与用户指导的摄像机移动和物体运动

Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion

Shiyuan Yang, Liang Hou, Haibin Huang, Chongyang Ma, Pengfei Wan...

TL;DR我们引入 Direct-a-Video，一个可以让用户独立指定一个或多个对象的运动和 / 或相机的移动，就像导演一个视频一样。通过使用模型的先验知识，我们提出了一种简单又有效的对象运动和相机移动解耦控制策略。我们还引入了新的时间交叉注意力层来解释定量的相机移动参数。通过在小规模数据集上自监督方式训练这些层，我们消除了显式运动注释的需求。我们的方法能够独立运作，并能够广泛适用于开放领域的场景。大量实验证明了我们方法的优越性和有效性。

Abstract

Recent text-to-video diffusion models have achieved impressive progress. In practice, users often desire the ability to control object motion and camera movement independently for customized video creation. However, current methods lack the focus on separately →

text-to-video diffusion models controlling object motion controlling camera movement decoupled control direct-a-video

发现论文，激发创造

MotionMaster：无需训练的视频生成摄像机运动转移

我们提出了一种无需训练的视频运动转移模型 (COMD)，通过将摄像机运动从源视频中分离并转移到新的视频中，实现了对摄像机运动的灵活控制。我们通过提出一种单次摄像机运动分离方法和少次摄像机运动分离方法，从单个源视频和多个具有相似摄像机运动的视频中提取摄像机运动。最后，我们提出了一种运动组合方法，将不同类型的摄像机运动结合起来，使我们的模型具有更加可控和灵活的摄像机控制。

Apr, 2024

MotionDirector: 文本到视频扩散模型的动作定制

通过引入双路径的 LoRAs 架构和一种新颖的去除外观影响的时间损失函数，作者提出了 MotionDirector 的方法，可以生成具有不同外观的自定义运动的视频，并支持混合不同视频的外观和运动以及给单个图像添加自定义动作。

Oct, 2023

一键式动作定制的文本到视频扩散模型

通过低秩适应的时空注意力层，该文献介绍了一种用于一次性运动定制的自定义视频模型，可以从单个参考视频中学习运动信息，以适应新的主题和场景，并可轻松扩展到多个下游任务。

Feb, 2024

DreamVideo: 定制主题与动作，创作您梦想的视频

通过使用扩散模型进行定制生成，在图像生成方面取得了可观的进展，但在具有挑战性的视频生成任务中仍然不令人满意，因为它需要对主题和动作的可控性。为此，我们提出了 DreamVideo，一种新颖的方法，可以从几个所需主题的静态图像和几个目标运动的视频来生成个性化视频。

Dec, 2023

文本到视频扩散模型中的定制动作

通过扩展现有的文本到视频生成模型，我们引入了一种方法来增加定制动作，以超越原始训练数据中所描绘的动作。通过利用几个呈现特定动作的视频样本作为输入，我们的方法学习并概括了多样化的、与文本指定情景相关的输入动作模式。

Dec, 2023

MotionBooth: 运动感知定制文本到视频生成

我们呈现了 MotionBooth，一个创新的框架，设计用于以精确控制对象和相机运动方式来为自定义主题提供动画效果。我们利用特定对象的几张图片，有效地微调一个文本到视频模型，以准确捕捉对象的形状和特性。我们的方法采用主题区域损失和视频保护损失来提高学习效果，并利用主题令牌交叉注意损失将自定义主题与运动控制信号整合。此外，我们提出了一种在推理过程中管理主题和相机运动的无训练技术。尤其是，我们利用交叉注意力地图操作来控制主题运动，并引入了一种新颖的潜在位移模块来控制相机移动。MotionBooth 在保留主题外观的同时，能够同时控制生成视频中的运动。广泛的定量与定性评估证明了我们方法的优越性和有效性。我们的项目页面位于此 https URL。

Jun, 2024

视频生成的无需训练摄像机控制

我们提出了一种无需训练且稳健的解决方案，为现成的视频扩散模型提供摄像机运动控制。我们的方法不同于以前的工作，不需要在带有摄像机注释的数据集上进行有监督的微调或通过数据增强进行自监督训练。相反，它可以与大多数预训练的视频扩散模型插入和播放，并且只需一个图像或文本提示作为输入即可生成可控摄像机的视频。我们的工作灵感来自于中间隐藏变量对生成结果的布局先验，因此重新排列其中的噪点像素将重新分配输出内容。由于摄像机移动也可以被视为透视变化引起的像素重新排列，如果它们的噪点隐藏变量相应改变，视频可以按照特定的摄像机运动进行重新组织。基于此，我们提出了我们的方法 CamTrol，实现了对视频扩散模型的稳健摄像机控制。这通过两个阶段的过程实现。首先，我们在三维点云空间中建模图像布局重新排列通过显式摄像机运动。其次，我们使用一系列重新排列的图像形成的噪点隐藏变量的布局先验生成具有摄像机运动的视频。广泛的实验证明了我们的方法在控制生成视频的摄像机运动方面的鲁棒性。此外，我们展示了我们的方法在生成具有动态内容的三维旋转视频方面产生的令人印象深刻的结果。

Jun, 2024

MotionClone：无需训练的可控视频生成运动克隆

MotionClone 是一个无需训练的框架，通过时间注意力机制从参考视频中克隆运动以控制文本到视频生成，同时引入了区域感知的语义引导机制提升生成模型的空间关系和随机应变能力，实验结果显示 MotionClone 在全局摄像机运动和局部目标运动方面表现出色，并具有运动保真度高、文本对齐准确和时序一致等显著优势。

Jun, 2024

协同视频扩散：具有摄像机控制的一致多视频生成

视频生成的研究最近取得了巨大的进展，使得高质量的视频可以从文字提示或图像中生成。为视频生成过程添加控制是一个重要的目标，并且最近的方法通过在相机轨迹上条件化视频生成模型来朝着这个目标迈进。然而，从多个不同相机轨迹生成相同场景的视频仍然具有挑战性。解决这个多视频生成问题可以实现可编辑相机轨迹的大规模三维场景生成等应用。我们引入了协作视频扩散（CVD）作为实现这一愿景的重要一步。CVD 框架包括一个新颖的跨视频同步模块，通过使用一个极线注意机制促进不同相机姿态下相同视频的对应帧之间的一致性。经过大量实验证明，在针对视频生成的最先进相机控制模块的基础上训练，CVD 生成的从不同相机轨迹渲染的多个视频比基准线具有显著更好的一致性。

May, 2024

编辑你的动作：时空扩散解耦学习用于视频动作编辑

通过提出一种一次性视频运动编辑方法（Edit-Your-Motion），利用详细提示引导学习策略（DPL）对时空扩散模型进行空间 - 时间特征解耦，从而实现对视频对象内容和运动的编辑。该方法比其他方法表现更好，能够生成更加激动人心和多样化的视频。

May, 2024