MotionCtrl：统一灵活的视频生成运动控制器

Dec, 2023

MotionCtrl：统一灵活的视频生成运动控制器

MotionCtrl: A Unified and Flexible Motion Controller for Video Generation

Zhouxia Wang, Ziyang Yuan, Xintao Wang, Tianshui Chen, Menghan Xia...

TL;DR该论文介绍了 MotionCtrl，这是一个用于视频生成的统一和灵活的运动控制器，通过有效和独立地控制相机运动和物体运动，实现更精细的运动控制和促进两种类型运动的灵活多样组合。

Abstract

Motions in a video primarily consist of camera motion, induced by camera movement, and object motion, resulting from object movement. Accurate control of both camera and →

video generation motion control camera motion object motion motionctrl

发现论文，激发创造

MotionMaster：无需训练的视频生成摄像机运动转移

我们提出了一种无需训练的视频运动转移模型 (COMD)，通过将摄像机运动从源视频中分离并转移到新的视频中，实现了对摄像机运动的灵活控制。我们通过提出一种单次摄像机运动分离方法和少次摄像机运动分离方法，从单个源视频和多个具有相似摄像机运动的视频中提取摄像机运动。最后，我们提出了一种运动组合方法，将不同类型的摄像机运动结合起来，使我们的模型具有更加可控和灵活的摄像机控制。

Apr, 2024

CameraCtrl: 文本到视频生成的相机控制功能

本研究介绍了 CameraCtrl 模型，通过精确控制相机姿态来实现对 T2V 模型的准确控制，研究结果表明，多样的相机分布和相似的外观确实提高了可控性和泛化性，这一成果在实现从文本和相机姿态输入到动态定制视频叙事方面迈出了一步。

Apr, 2024

Direct-a-Video: 用户定制化视频生成与用户指导的摄像机移动和物体运动

我们引入 Direct-a-Video，一个可以让用户独立指定一个或多个对象的运动和 / 或相机的移动，就像导演一个视频一样。通过使用模型的先验知识，我们提出了一种简单又有效的对象运动和相机移动解耦控制策略。我们还引入了新的时间交叉注意力层来解释定量的相机移动参数。通过在小规模数据集上自监督方式训练这些层，我们消除了显式运动注释的需求。我们的方法能够独立运作，并能够广泛适用于开放领域的场景。大量实验证明了我们方法的优越性和有效性。

Feb, 2024

MotionClone：无需训练的可控视频生成运动克隆

MotionClone 是一个无需训练的框架，通过时间注意力机制从参考视频中克隆运动以控制文本到视频生成，同时引入了区域感知的语义引导机制提升生成模型的空间关系和随机应变能力，实验结果显示 MotionClone 在全局摄像机运动和局部目标运动方面表现出色，并具有运动保真度高、文本对齐准确和时序一致等显著优势。

Jun, 2024

图像导体：交互式视频合成的精准控制

提出了一种从单张图像生成视频资产的方法，通过 Image Conductor 实现了摄像机转换和物体移动的精确控制，并通过训练策略、引导技术和数据处理流程进一步改进，展示了在交互式视频合成中实现精准控制的效果。

Jun, 2024

视频生成的无需训练摄像机控制

我们提出了一种无需训练且稳健的解决方案，为现成的视频扩散模型提供摄像机运动控制。我们的方法不同于以前的工作，不需要在带有摄像机注释的数据集上进行有监督的微调或通过数据增强进行自监督训练。相反，它可以与大多数预训练的视频扩散模型插入和播放，并且只需一个图像或文本提示作为输入即可生成可控摄像机的视频。我们的工作灵感来自于中间隐藏变量对生成结果的布局先验，因此重新排列其中的噪点像素将重新分配输出内容。由于摄像机移动也可以被视为透视变化引起的像素重新排列，如果它们的噪点隐藏变量相应改变，视频可以按照特定的摄像机运动进行重新组织。基于此，我们提出了我们的方法 CamTrol，实现了对视频扩散模型的稳健摄像机控制。这通过两个阶段的过程实现。首先，我们在三维点云空间中建模图像布局重新排列通过显式摄像机运动。其次，我们使用一系列重新排列的图像形成的噪点隐藏变量的布局先验生成具有摄像机运动的视频。广泛的实验证明了我们的方法在控制生成视频的摄像机运动方面的鲁棒性。此外，我们展示了我们的方法在生成具有动态内容的三维旋转视频方面产生的令人印象深刻的结果。

Jun, 2024

ReVideo: 重新制作视频并具备运动和内容控制

本文介绍了一种名为 ReVideo 的视频重制方法，通过指定内容和运动，允许在特定区域进行精确的视频编辑。通过修改第一帧实现内容编辑，而基于轨迹的运动控制提供了直观的用户交互体验。通过逐步分离内容和运动控制的训练策略以及时空自适应融合模块，解决了内容和运动控制之间的任务耦合和训练不平衡问题。广泛的实验证明，ReVideo 在几个精确的视频编辑应用上表现出有希望的性能，包括：（1）在保持运动恒定的情况下局部改变视频内容，（2）保持内容不变并自定义新的运动轨迹，（3）修改内容和运动轨迹。该方法还可以无需特定训练地无缝扩展到多区域编辑，展示了它的灵活性和鲁棒性。

May, 2024

Motion-Zero：基于扩散的视频生成中的零表示移动物体控制框架

我们提出了一种新颖的零样条移动物体轨迹控制框架 Motion-Zero，通过提供基于位置的先验来改善移动物体的外观稳定性和位置准确性，并利用 U-net 的注意力图在扩散模型的去噪过程中直接应用空间约束，从而进一步确保移动物体的位置和空间一致性，并通过引入移动注意力机制实现时序一致性的保证。这种方法可以灵活运用于各种最先进的视频扩散模型，无需任何训练过程，大量实验证明我们的方法可以控制物体的运动轨迹并生成高质量的视频。

Jan, 2024

协同视频扩散：具有摄像机控制的一致多视频生成

视频生成的研究最近取得了巨大的进展，使得高质量的视频可以从文字提示或图像中生成。为视频生成过程添加控制是一个重要的目标，并且最近的方法通过在相机轨迹上条件化视频生成模型来朝着这个目标迈进。然而，从多个不同相机轨迹生成相同场景的视频仍然具有挑战性。解决这个多视频生成问题可以实现可编辑相机轨迹的大规模三维场景生成等应用。我们引入了协作视频扩散（CVD）作为实现这一愿景的重要一步。CVD 框架包括一个新颖的跨视频同步模块，通过使用一个极线注意机制促进不同相机姿态下相同视频的对应帧之间的一致性。经过大量实验证明，在针对视频生成的最先进相机控制模块的基础上训练，CVD 生成的从不同相机轨迹渲染的多个视频比基准线具有显著更好的一致性。

May, 2024

UCMCTrack: 统一相机运动补偿的多目标跟踪

通过引入 UCMCTrack，本研究提出了一种新颖的基于运动模型的跟踪器，它能够有效地应对视频序列中的相机运动，并仅依赖于运动线索，在各种具有挑战性的数据集上取得了最先进的性能。

Dec, 2023