文本驱动的人类视频生成

Apr, 2023

Text2Performer: Text-Driven Human Video Generation

Yuming Jiang, Shuai Yang, Tong Liang Koh, Wayne Wu, Chen Change Loy...

TL;DR本文提出了 Text2Performer 算法，基于文本描述生成拥有精细动作的逼真人类视频，并提供了 Fashion-Text2Video 数据集用于辅助该任务。其中包括了两个新设计：将 VQVAE 潜空间表示细分为人物形象和姿势表示，并通过连续 VQ-diffuser 对姿势编码进行采样，得到更好的动作建模。该算法在多项实验中表现出成果丰硕。

Abstract

text-driven content creation has evolved to be a transformative technique that revolutionizes creativity. Here we study the task of text-driven human video generation, where a video sequence is synthesized from t

text-driven human video generation motion modeling dataset vq-diffuser

发现论文，激发创造

基于文本的可控人类图像生成

本文提出一种名为 Text2Human 的控制性框架，用于基于文本的生成高质量和多样化的人类图像。在此框架下，我们建立了一个分层的纹理感知码书，以存储不同类型纹理的多尺度神经表征，并使用混合专家的扩散变换采样器采样码书中的索引。通过使用细粒度文本输入，生成的图像具有更高的质量和更多的多样性，拥有比现有方法更好的性能。

May, 2022

T2M-GPT: 使用离散表示生成基于文本描述的人体动作

本文研究了基于 VQ-VAE 和 GPT 的人体运动生成的条件生成框架，并表明了通过常用的训练配方（EMA 和 Code Reset），我们可以获得高质量的离散表示。此外，我们在训练期间采用了一种简单的损坏策略来缓解训练 - 测试偏差，并在 HumanML3D 数据集上表现出比竞争方法更好的性能。

Jan, 2023

基于文本的人体运动生成与多视角关注机制

基于文本描述生成的 3D 人体动作一直以来都是一个研究焦点，本文提出了使用多角度注意机制的两阶段方法，即基于人体局部和整体的运动注意以及运动和文本跨模态的全局局部注意机制，通过生成变压器实现文本驱动的运动生成，在 HumanML3D 和 KIT-ML 上的实验证明了我们方法在定性和定量评估方面优于现有的技术，并实现了精细合成和动作生成。

Sep, 2023

基于关键帧并行跳跃变换的文本引导下的三维人体动作生成

提出了一种名为 KeyMotion 的方法，通过生成关键帧并进行填充，实现根据输入文本生成逼真的人体运动序列。通过使用具有 Kullback-Leibler 正则化的变分自编码器（VAE）将关键帧投影到潜空间，来减少维度和加速扩散过程。同时，引入了一种新的并行跳过注意力机制的 Transformer，用于实现关键帧潜向量和文本条件之间的跨模态注意力。通过引入文本引导的 Transformer 进行动作填充，确保运动序列的保真度和遵循人体运动的物理约束。实验证明，该方法在 HumanML3D 数据集上达到了最先进的结果，所有 R-Precision 度量和多模态距离指标均优于其他方法。同时，在 KIT 数据集上也获得了有竞争力的性能，在 Top3 R-Precision、FID 和多样性度量指标上取得了最佳结果。

May, 2024

Text-Animator: 可控的视觉文本视频生成

我们提出了一种创新的方法 Text-Animator，用于视觉文本视频生成，通过精确描述生成视频中视觉文本的结构，并通过控制摄像机移动和文本运动来改善生成视觉文本的稳定性，实验证明了我们方法在生成视觉文本准确性上的优越性。

Jun, 2024

T2M-HiFiGPT: 从文本描述中生成高质量的人体运动，使用离散残差表示

我们介绍了 T2M-HiFiGPT，这是一种生成人体动作的新型条件生成框架，其基于 RVQ-VAE 和双层 GPT 结构。我们的研究表明，我们基于 CNN 的 RVQ-VAE 能够产生高精度的 2D 时间 - 残差离散动作表示。我们的双层 GPT 结构包括了时间 GPT 和残差 GPT，能够有效地将先前帧和文本描述的信息压缩成 1D 上下文向量，并通过 RVQ-VAE 解码器将生成的残差离散指标转化回动作数据。我们的框架在 HumanML3D 和 KIT-ML 数据集上表现出色，在几乎所有主要指标上产生了异常的结果。通过对 HumanML3D 数据集进行全面的剔除研究，我们进一步验证了我们框架的有效性，并考察了每个组件的贡献。我们的发现表明，相比 VQ-VAE 类型的模型，RVQ-VAE 不仅更擅长捕捉精确的 3D 人体动作，而且计算需求相当。因此，T2M-HiFiGPT 能够以显著提高的准确性生成人体动作，优于最新的基于扩散和 GPT 的方法，如 T2M-GPT 和 Att-T2M。

Dec, 2023

Fg-T2M：基于扩散模型的精细文本驱动人体运动生成

通过结合语言结构辅助模块和上下文感知渐进推理模块，我们提出了一种细粒度的方法，用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明，我们的方法在 HumanML3D 和 KIT 测试集上胜过了基于文本驱动的动作生成方法，并能够根据文本条件生成更好的视觉确认动作。

Sep, 2023

基于文本指导的人物图像合成

本论文提出了一种新颖的方法，根据自然语言描述操纵人物图像的视觉外观和姿态，并进行了广泛的实验以证明该方法的有效性。

Apr, 2019

优先级中心的离散潜空间人体运动生成

文本到动作生成是一项艰巨的任务，本文介绍一种优先级中心的运动分散扩散模型（M2DM），利用基于 Transformer 的 VQ-VAE 得出简洁的、离散的动作表示，通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型，它采用了一种创新的噪声调度方式，根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作，从而产生更丰富多样的语义动作。在 HumanML3D 和 KIT-ML 数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术，尤其对于复杂的文本描述。

Aug, 2023

面向开放领域的多人动作驱动文本合成

本研究旨在从文本描述中生成多个人的自然和多样化的群体动作。我们利用大规模图像和视频数据集估计姿势信息，通过基于 Transformer 的扩散框架，实现了多个数据集中任意数量主题或帧的生成。实验证明，我们的方法是第一个能从多样的文本提示中生成高多样性和保真度的多主体运动序列的方法。

May, 2024