像素跳舞：高动态视频生成

Nov, 2023

Make Pixels Dance: High-Dynamic Video Generation

Yan Zeng, Guoqiang Wei, Jiani Zheng, Jiaxin Zou, Yang Wei...

TL;DR基于扩散模型的 PixelDance 结合图像指令和文本指令，展现了合成复杂场景与精细动作的视频生成能力，创立了新一代的视频生成标准。

Abstract

Creating high-dynamic videos such as motion-rich actions and sophisticated visual effects poses a significant challenge in the field of artificial intelligence. Unfortunately, current state-of-the-art video generation methods, primarily focusing on text-to-→

video generation artificial intelligence pixeldance diffusion models complex scenes

发现论文，激发创造

舞动的阿凡达：基于姿势和文本引导的人体动作视频合成与图像扩散模型

提出了一种名为 “Dancing Avatar” 的方法，通过文本和姿势驱动，利用训练良好的 T2I 扩散模型生成逐帧人体运动视频，同时保持上下文相关性、人物外观一致性和背景连续性，实现生成具有出色质量的人类视频。

Aug, 2023

网络视频中的动作转移：跳舞生成

本文提出了一种利用计算方法在不同人之间传递身体动作的技术，基于生成网络，可以通过单个网络视频训练个人模型并生成具有照片级真实感的虚拟影像。

Mar, 2019

DynamiCrafter: 用视频扩散先验动画化开放域图像

通过将静止图像与动态相结合，提供更具吸引力的视觉体验。

Oct, 2023

MagicVideo-V2: 多阶段高美学视频生成

MagicVideo-V2 通过将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块整合到端到端视频生成流程中，可以生成具有出色保真度和平滑度的美观、高分辨率视频，在大规模用户评估中表现出比 Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 模型更优秀的性能。

Jan, 2024

Generative Disco: 音乐可视化的文本到视频生成

使用生成 AI 系统 Generative Disco，可以根据音乐的节奏生成音频反应的视频，并通过设计模式进行改进，纵向分为转换和保持，研究表明该系统易于使用且高度表现力，适用于专业人士和 AI 生成内容正在改变创作工作的领域。

Apr, 2023

LivePhoto：带有文本引导的实时图像动画与运动控制

通过 LivePhoto 系统，使用者可以通过文本描述来为感兴趣的图像添加动画效果，系统通过改进的生成器和设计的训练流程，实现了文本到视频的解码，进而实现了对视频的自定义。

Dec, 2023

MimicMotion：自信感知姿势引导下的高质量人体动作视频生成

提出了一种可控的视频生成框架 MimicMotion，通过引入自信姿势引导、基于姿势置信度的区域损失放大和渐进式潜在融合策略，实现了生成任意长度高质量视频的目标，并在各个方面显示出与之前方法相比的显著改进。

Jun, 2024

生成图像动力学

我们提出了一种对场景动态进行图像空间先验建模的方法，该先验是从包含自然振动运动（如树木、花朵、蜡烛和风中的衣物）的真实视频序列中提取的一系列运动轨迹学习得到的。通过一个经过训练的模型，我们使用一种频率协调扩散抽样过程来预测傅里叶域中每个像素长期运动表示，我们称之为神经随机运动纹理。这种表示可以转换为跨越整个视频的密集运动轨迹。结合基于图像的渲染模块，这些轨迹可以用于许多下游应用，例如将静止图像转换为无缝循环的动态视频，或者允许用户在真实图片中与物体进行真实交互。

Sep, 2023

MagicDance: 逼真的人类舞蹈视频生成与动作及面部表情迁移

我们提出了一种基于扩散的模型 MagicDance，用于处理具有挑战性的人类舞蹈视频中的 2D 人体动作和面部表情转换。通过预训练外观控制块和微调外观 - 姿势 - 关节点控制块的两阶段训练策略，我们旨在在保持身份不变的同时生成任何目标身份驱动的人类舞蹈视频。

Nov, 2023

Pix2Gif: 基于动态扩散的 GIF 生成

我们提出了 Pix2Gif，一种用于图像到 GIF（视频）生成的运动引导扩散模型。通过将任务表述为由文本和运动幅度提示引导的图像转换问题，我们以不同的方式解决了这个问题。为了确保模型遵循运动引导，我们提出了一种新的运动引导变形模块，以在两种提示的条件下空间转换源图像的特征。此外，我们引入了一个感知损失，确保变换后的特征图与目标图像保持相同的空间，以确保内容的一致性和连贯性。在模型训练准备阶段，我们通过从 TGIF 视频标题数据集中提取一致的图像帧来精心筛选数据，该数据集提供了关于主题的时序变化的丰富信息。在预训练之后，我们以零样本的方式将我们的模型应用于多个视频数据集。广泛的定性和定量实验证明了我们的模型的有效性 - 它不仅捕捉了文本的语义提示，还捕捉了运动引导的空间提示。我们使用一个 16xV100 GPU 节点训练所有模型。代码、数据集和模型在此 https URL 中公开。

Mar, 2024