Nov, 2023

PoseGPT:关于三维人体姿势的对话

TL;DRPoseGPT 是一个框架,利用大型语言模型(LLMs)从图像或文本描述中理解和推理出 3D 人体姿势。它通过嵌入 SMPL 姿势作为多模态 LLM 中的独立信号标记来解决传统人体姿势估计方法的局限性,不仅简化了姿势预测,而且赋予了 LLMs 在推理人体姿势方面应用它们的世界知识的能力,从而在姿势估计上进行推理,创造了两项先进任务:姿势的假设生成和姿势估计的推理。PoseGPT 在这些新提出的任务上优于现有的多模态 LLMs 和特定任务的方法,并开辟了人体姿势分析的新方向。