ECCVOct, 2022

从自然语言生成三维人体姿态的 PoseScript

TL;DR本文提出了 PoseScript 数据集,该数据集对 AMASS 的几千个 3D 人体姿势与丰富的人体注释描述进行了配对。我们提出了一种详细的字幕生成过程,通过一组简单但通用的规则从给定的 3D 关键点提取低级姿势信息 —— 姿势码,然后使用句法规则将姿势码组合成更高级别的文本描述。自动注释大大增加了可用数据量,并使得在人类字幕微调预训练的深度模型上变得可能。