Apr, 2023

文本驱动的人类视频生成

TL;DR本文提出了 Text2Performer 算法,基于文本描述生成拥有精细动作的逼真人类视频,并提供了 Fashion-Text2Video 数据集用于辅助该任务。其中包括了两个新设计:将 VQVAE 潜空间表示细分为人物形象和姿势表示,并通过连续 VQ-diffuser 对姿势编码进行采样,得到更好的动作建模。该算法在多项实验中表现出成果丰硕。