PoseGPT:基于量化的三维人体动作生成和预测
本文提出了一个两阶段的生成框架来解决图像到视频转换的问题,其中视频从结构生成并通过时间信号进行调整。通过在面部表情重定位和人体姿势预测这两个任务中取得比现有方法优秀的结果,证明了我们方法的有效性。
Jul, 2018
研究逆向行动识别问题,以给定的预设行动类型为条件,通过采用Lie Algebra理论和时序变分自编码器(VAE)来生成3D的逼真的人体运动序列,并保持多样性,实验评估证明了方法的有效性。
Jul, 2020
本文介绍了一种运用VAE和Transformer-Based架构实现人体运动序列的有条件生成,以及改进行为识别和降噪等两种应用。
Apr, 2021
本文中提出了一种统一的深度生成网络,用于多样化和可控的人体运动预测,该网络基于正则化流姿势先验和关节角损失函数,能够有效地提高模型的准确性和样本多样性。
Aug, 2021
该研究提出使用Transformer建模实现非自回归人体运动预测,采用串行解码替代基于先前预测的循环神经网络,实现了在序列中并行解码。该方法在短期预测方面具有较高的竞争力。
Sep, 2021
本研究提出了一种轻量级的人体运动预测网络“siMLPe”,结合了多层感知器、离散余弦变换、关节残差位移预测和速度辅助损失优化等简单方法,且具有仅有0.14万个参数和超过三个基准数据集的卓越表现,成为该领域的强基准。
Jul, 2022
本文研究了基于 VQ-VAE 和 GPT 的人体运动生成的条件生成框架,并表明了通过常用的训练配方(EMA 和 Code Reset),我们可以获得高质量的离散表示。此外,我们在训练期间采用了一种简单的损坏策略来缓解训练 - 测试偏差,并在 HumanML3D 数据集上表现出比竞争方法更好的性能。
Jan, 2023
人体运动生成是生成自然人体姿势序列的目标,具有广泛的实际应用潜力。本文是人体运动生成领域的首篇综述文献,介绍了人体运动和生成模型的背景,并对三个主流子任务(文本条件、音频条件和场景条件的人体运动生成)的代表方法进行了审查。此外,还概述了常见数据集和评估指标,并讨论了开放问题和潜在的未来研究方向。希望该综述能够为社区提供对这个快速发展领域的全面了解,并激发解决尚未解决的挑战的新思路。
Jul, 2023
我们介绍了T2M-HiFiGPT,这是一种生成人体动作的新型条件生成框架,其基于RVQ-VAE和双层GPT结构。我们的研究表明,我们基于CNN的RVQ-VAE能够产生高精度的2D时间-残差离散动作表示。我们的双层GPT结构包括了时间GPT和残差GPT,能够有效地将先前帧和文本描述的信息压缩成1D上下文向量,并通过RVQ-VAE解码器将生成的残差离散指标转化回动作数据。我们的框架在HumanML3D和KIT-ML数据集上表现出色,在几乎所有主要指标上产生了异常的结果。通过对HumanML3D数据集进行全面的剔除研究,我们进一步验证了我们框架的有效性,并考察了每个组件的贡献。我们的发现表明,相比VQ-VAE类型的模型,RVQ-VAE不仅更擅长捕捉精确的3D人体动作,而且计算需求相当。因此,T2M-HiFiGPT能够以显著提高的准确性生成人体动作,优于最新的基于扩散和GPT的方法,如T2M-GPT和Att-T2M。
Dec, 2023
我们提出了一种新的方法,基于神经离散表示学习,用于生成人类运动以填充3D 室内场景,并利用场景、上下文信息等多种组合的调控信号进行控制,解决了现有方法的局限性,使得模型在质量和多样性上优于现有的特定上下文信息的方法。
Apr, 2024