Oct, 2022

从自然语言生成三维人体姿态的PoseScript

TL;DR本文提出了PoseScript数据集,该数据集对AMASS的几千个3D人体姿势与丰富的人体注释描述进行了配对。我们提出了一种详细的字幕生成过程,通过一组简单但通用的规则从给定的3D关键点提取低级姿势信息——姿势码,然后使用句法规则将姿势码组合成更高级别的文本描述。自动注释大大增加了可用数据量,并使得在人类字幕微调预训练的深度模型上变得可能。