文本驱动的人类视频生成
本文提出一种名为 Text2Human 的控制性框架,用于基于文本的生成高质量和多样化的人类图像。在此框架下,我们建立了一个分层的纹理感知码书,以存储不同类型纹理的多尺度神经表征,并使用混合专家的扩散变换采样器采样码书中的索引。通过使用细粒度文本输入,生成的图像具有更高的质量和更多的多样性,拥有比现有方法更好的性能。
May, 2022
本文研究了基于 VQ-VAE 和 GPT 的人体运动生成的条件生成框架,并表明了通过常用的训练配方(EMA 和 Code Reset),我们可以获得高质量的离散表示。此外,我们在训练期间采用了一种简单的损坏策略来缓解训练 - 测试偏差,并在 HumanML3D 数据集上表现出比竞争方法更好的性能。
Jan, 2023
基于文本描述生成的 3D 人体动作一直以来都是一个研究焦点,本文提出了使用多角度注意机制的两阶段方法,即基于人体局部和整体的运动注意以及运动和文本跨模态的全局局部注意机制,通过生成变压器实现文本驱动的运动生成,在 HumanML3D 和 KIT-ML 上的实验证明了我们方法在定性和定量评估方面优于现有的技术,并实现了精细合成和动作生成。
Sep, 2023
提出了一种名为 KeyMotion 的方法,通过生成关键帧并进行填充,实现根据输入文本生成逼真的人体运动序列。通过使用具有 Kullback-Leibler 正则化的变分自编码器(VAE)将关键帧投影到潜空间,来减少维度和加速扩散过程。同时,引入了一种新的并行跳过注意力机制的 Transformer,用于实现关键帧潜向量和文本条件之间的跨模态注意力。通过引入文本引导的 Transformer 进行动作填充,确保运动序列的保真度和遵循人体运动的物理约束。实验证明,该方法在 HumanML3D 数据集上达到了最先进的结果,所有 R-Precision 度量和多模态距离指标均优于其他方法。同时,在 KIT 数据集上也获得了有竞争力的性能,在 Top3 R-Precision、FID 和多样性度量指标上取得了最佳结果。
May, 2024
我们提出了一种创新的方法 Text-Animator,用于视觉文本视频生成,通过精确描述生成视频中视觉文本的结构,并通过控制摄像机移动和文本运动来改善生成视觉文本的稳定性,实验证明了我们方法在生成视觉文本准确性上的优越性。
Jun, 2024
我们介绍了 T2M-HiFiGPT,这是一种生成人体动作的新型条件生成框架,其基于 RVQ-VAE 和双层 GPT 结构。我们的研究表明,我们基于 CNN 的 RVQ-VAE 能够产生高精度的 2D 时间 - 残差离散动作表示。我们的双层 GPT 结构包括了时间 GPT 和残差 GPT,能够有效地将先前帧和文本描述的信息压缩成 1D 上下文向量,并通过 RVQ-VAE 解码器将生成的残差离散指标转化回动作数据。我们的框架在 HumanML3D 和 KIT-ML 数据集上表现出色,在几乎所有主要指标上产生了异常的结果。通过对 HumanML3D 数据集进行全面的剔除研究,我们进一步验证了我们框架的有效性,并考察了每个组件的贡献。我们的发现表明,相比 VQ-VAE 类型的模型,RVQ-VAE 不仅更擅长捕捉精确的 3D 人体动作,而且计算需求相当。因此,T2M-HiFiGPT 能够以显著提高的准确性生成人体动作,优于最新的基于扩散和 GPT 的方法,如 T2M-GPT 和 Att-T2M。
Dec, 2023
通过结合语言结构辅助模块和上下文感知渐进推理模块,我们提出了一种细粒度的方法,用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明,我们的方法在 HumanML3D 和 KIT 测试集上胜过了基于文本驱动的动作生成方法,并能够根据文本条件生成更好的视觉确认动作。
Sep, 2023
文本到动作生成是一项艰巨的任务,本文介绍一种优先级中心的运动分散扩散模型(M2DM),利用基于 Transformer 的 VQ-VAE 得出简洁的、离散的动作表示,通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型,它采用了一种创新的噪声调度方式,根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作,从而产生更丰富多样的语义动作。在 HumanML3D 和 KIT-ML 数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术,尤其对于复杂的文本描述。
Aug, 2023
本研究旨在从文本描述中生成多个人的自然和多样化的群体动作。我们利用大规模图像和视频数据集估计姿势信息,通过基于 Transformer 的扩散框架,实现了多个数据集中任意数量主题或帧的生成。实验证明,我们的方法是第一个能从多样的文本提示中生成高多样性和保真度的多主体运动序列的方法。
May, 2024