舞动的阿凡达：基于姿势和文本引导的人体动作视频合成与图像扩散模型

Aug, 2023

舞动的阿凡达：基于姿势和文本引导的人体动作视频合成与图像扩散模型

Dancing Avatar: Pose and Text-Guided Human Motion Videos Synthesis with Image Diffusion Model

Bosheng Qin, Wentao Ye, Qifan Yu, Siliang Tang, Yueting Zhuang

TL;DR提出了一种名为 “Dancing Avatar” 的方法，通过文本和姿势驱动，利用训练良好的 T2I 扩散模型生成逐帧人体运动视频，同时保持上下文相关性、人物外观一致性和背景连续性，实现生成具有出色质量的人类视频。

Abstract

The rising demand for creating lifelike avatars in the digital realm has led to an increased need for generating high-quality human videos guided by textual descriptions and poses. We propose Dancing avatar, desi

avatar human videos textual cues t2i diffusion model background continuity

发现论文，激发创造

DiffDance: 舞蹈生成的级联人体运动扩散模型

将音乐与运动结合的 DiffDance 模型能够生成与输入音乐有效对齐的逼真舞蹈序列，结果与最先进的自回归方法相媲美。

Aug, 2023

MagicDance: 逼真的人类舞蹈视频生成与动作及面部表情迁移

我们提出了一种基于扩散的模型 MagicDance，用于处理具有挑战性的人类舞蹈视频中的 2D 人体动作和面部表情转换。通过预训练外观控制块和微调外观 - 姿势 - 关节点控制块的两阶段训练策略，我们旨在在保持身份不变的同时生成任何目标身份驱动的人类舞蹈视频。

Nov, 2023

DreamPose: 通过稳定扩散进行时装图像到视频合成

DreamPose 是一种基于扩散的方法，用于从静止图像生成动画时装视频，通过使用一组新颖的微调策略、建筑变化和技术来实现姿势与图像引导的视频合成模型，并鼓励时间的一致性，通过对 UBC 时尚数据集的时装视频进行微调来对我们的方法进行评估，证明我们的方法在时装视频动画方面取得了最先进的效果。

Apr, 2023

3D 控制合成运动人物

利用扩散模型为给定目标 3D 动作序列中的人物从单个图像创建动画的框架，包括学习关于人体和服装不可见部分的先验知识以及呈现适当的身体姿势和纹理的新姿态。

Jan, 2024

跟随你的姿势：使用无姿态视频进行姿势引导的文本到视频生成

本研究提出一种新的双阶段训练方法，可利用易获得的数据集和预训练的 text-to-image（T2I）模型，生成可编辑和姿态可控的字符视频。这种方法成功地生成了连续的姿态可控字符视频，同时保持了预训练 T2I 模型的编辑和概念构成能力。

Apr, 2023

DreaMoving: 基于扩散模型的人类舞蹈视频生成框架

提出 DreaMoving，一种基于扩散的可控制视频生成框架，用于生成高质量的个性化人类舞蹈视频。

Dec, 2023

可塑扩散：单图像化身创造的三维一致扩散

本研究工作旨在通过将 3D 可变模型整合到最新的多视角一致性扩散方法中，增强生成扩散模型在创建可控、照片般逼真的人类头像任务中的质量和功能。我们的实验证明了在基于关节的 3D 模型的准确约束下，生成流水线模型在单图像的新视角合成任务上的性能改进，更重要的是，这种整合实现了面部表情和身体姿势控制在生成过程中的无缝和准确融入。据我们所知，我们提出的框架是第一个允许从未见过的单一图像创建完全 3D 一致、可动画和照片般逼真的人类头像的扩散模型；广泛的定量和定性评估证明了我们的方法在新视角和新表情合成任务上相对于现有最先进的头像创建模型的优势。

Jan, 2024

使用文本到图像扩散模型生成带有关节的 3D 头像

本文提出了一种新的基于 3D 可塑模型（3DMM）的文本引导头部生成方法，利用扩散模型生成多视图一致性辐射场的同时更新几何和纹理以生成和文本描述一致的 3D 头部化身，以此在一定程度上提高 3D 头部生成的精度和多样性。

Jul, 2023

VividPose: 提升稳定视频扩散以实现逼真的人体图像动画

通过使用稳定的视频扩散 (SVD)、面部信息集成、准确对齐人体姿态和形状的控制器，VividPose 通过保持人物身份，并提供一个能处理多种身体形状和动态手部运动的坚实框架，实现了最先进的性能，并展示出在我们提出的野外数据集上的出色泛化能力。

May, 2024

DreamAvatar: 基于扩散模型的文本和形状指导下的 3D 人体化身生成

DreamAvatar 是一个生成高质量、可控制姿态的 3D 人类头像的框架，它使用了可训练的 NeRF 生成 3D 点密度和颜色特征以及预先训练的文本到图像扩散模型提供 2D 自监督。通过 SMPL 模型提供粗略的姿势和形状指导生成，并引入了包含规范空间和观察空间的双重空间设计，它们之间由 NeRF 学习的变形场联系，从规范空间将优化的纹理和几何转移到目标位置头像，添加正常一致性正则化以获得更生动的几何和纹理。经过广泛的评估，证明 DreamAvatar 明显优于现有方法，为文本和形状引导的 3D 人体生成设立了新的技术水准。

Apr, 2023