Nov, 2023

AvatarGPT: 综合框架用于动作理解、规划、生成及其他领域

TL;DRAvatarGPT 是一个全能的运动理解、规划、生成等任务的框架,以及基于 LLM 的动作中间合成等其他任务,通过语言作为通用接口,构成一个闭环。通过将人类运动序列编码为离散的标记,并开发一个无监督的管道来从野外视频中生成人类行动序列的自然语言描述,最终实现了各个任务的联合训练。广泛的实验证明,AvatarGPT 在低级任务上达到了最先进水平,在高级任务上取得了有希望的结果,证明了我们提出的全能框架的有效性。此外,AvatarGPT 首次实现了通过闭环内的任务迭代遍历进行无限长运动合成的原则性方法。