MotionClone：无需训练的可控视频生成运动克隆

Jun, 2024

MotionClone：无需训练的可控视频生成运动克隆

MotionClone: Training-Free Motion Cloning for Controllable Video Generation

Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang...

TL;DRMotionClone 是一个无需训练的框架，通过时间注意力机制从参考视频中克隆运动以控制文本到视频生成，同时引入了区域感知的语义引导机制提升生成模型的空间关系和随机应变能力，实验结果显示 MotionClone 在全局摄像机运动和局部目标运动方面表现出色，并具有运动保真度高、文本对齐准确和时序一致等显著优势。

Abstract

motion-based controllable text-to-video generation involves motions to control the video generation. Previous methods typically require the training of models to encode motion cues or the fine-tuning of video diffusion models. However, these approaches often result in suboptimal motion

motion-based controllable text-to-video generation motionclone temporal attention location-aware semantic guidance motion fidelity

发现论文，激发创造

MotionMaster：无需训练的视频生成摄像机运动转移

我们提出了一种无需训练的视频运动转移模型 (COMD)，通过将摄像机运动从源视频中分离并转移到新的视频中，实现了对摄像机运动的灵活控制。我们通过提出一种单次摄像机运动分离方法和少次摄像机运动分离方法，从单个源视频和多个具有相似摄像机运动的视频中提取摄像机运动。最后，我们提出了一种运动组合方法，将不同类型的摄像机运动结合起来，使我们的模型具有更加可控和灵活的摄像机控制。

Apr, 2024

ControlVideo: 无需训练的可控文本到视频生成

ControlVideo 是一种基于文本驱动扩散模型的、无需训练即可完成自然高效文本到视频生成，使用三个模块实现外观协调、帧插值以及分层采样，能够在轻松几分钟之内生成高质量的短视频和长视频。

May, 2023

LivePhoto：带有文本引导的实时图像动画与运动控制

通过 LivePhoto 系统，使用者可以通过文本描述来为感兴趣的图像添加动画效果，系统通过改进的生成器和设计的训练流程，实现了文本到视频的解码，进而实现了对视频的自定义。

Dec, 2023

深度视频表演克隆

提出了一种新的基于视频的性能克隆技术，该技术使用深度生成网络训练目标演员的外观和动态，能够生成视频，其中该演员重新演绎其他表演。

Aug, 2018

MimicMotion：自信感知姿势引导下的高质量人体动作视频生成

提出了一种可控的视频生成框架 MimicMotion，通过引入自信姿势引导、基于姿势置信度的区域损失放大和渐进式潜在融合策略，实现了生成任意长度高质量视频的目标，并在各个方面显示出与之前方法相比的显著改进。

Jun, 2024

由无生有：无言训练的开放词汇文本生成动作

本文探讨了在零样本学习中的离线开放词汇文本到动作生成，使用一个预训练的运动生成器从被遮蔽的运动中学习来重建全动作，利用一个文本到姿态生成器合成未被遮蔽的姿态来构建提示，使用了文本 - 姿态对齐模型和新颖的无文字训练机制来提高效率和稳定性。

Oct, 2022

从一段视频中复制动作生成虚假动作视频

本文采用人工智能技术生成目标人物的视频，并提出了三个方面的挑战：将每个视频帧解构成前景和背景，提出一种理论驱动的 Gromov-Wasserstein 损失，对面部特征进行几何引导并使用本地 GANs 细化脸部、脚部和手部。实验结果表明，我们的方法能够生成具有逼真的目标人物的视频，忠实地复制源人物的复杂动作。

May, 2022

Motion-Zero：基于扩散的视频生成中的零表示移动物体控制框架

我们提出了一种新颖的零样条移动物体轨迹控制框架 Motion-Zero，通过提供基于位置的先验来改善移动物体的外观稳定性和位置准确性，并利用 U-net 的注意力图在扩散模型的去噪过程中直接应用空间约束，从而进一步确保移动物体的位置和空间一致性，并通过引入移动注意力机制实现时序一致性的保证。这种方法可以灵活运用于各种最先进的视频扩散模型，无需任何训练过程，大量实验证明我们的方法可以控制物体的运动轨迹并生成高质量的视频。

Jan, 2024

学习预测和优化残差运动用于图像生成视频

本文提出了一个两阶段的生成框架来解决图像到视频转换的问题，其中视频从结构生成并通过时间信号进行调整。通过在面部表情重定位和人体姿势预测这两个任务中取得比现有方法优秀的结果，证明了我们方法的有效性。

Jul, 2018

可控的图像描述生成视频技术

提出了一种名为 TI2V 的新的视频生成任务，即从静态图像和文本描述生成视频。介绍了一种名为 MAGE 的视频生成器，其中包含一种创新的运动锚（MA）结构，以存储外观 - 运动对齐表示，通过三维轴向变压器与给定图像交互，支持可控性和多样性。两个新的视频 - 文本匹配数据集验证了 MAGE 的有效性并展示了 TI2V 的潜力。

Dec, 2021