LAMP: 多人姿态估计的语言提示利用

Jul, 2023

LAMP: 多人姿态估计的语言提示利用

LAMP: Leveraging Language Prompts for Multi-person Pose Estimation

Shengnan Hu, Ce Zheng, Zixiang Zhou, Chen Chen, Gita Sukthankar

TL;DR人机交互中的以人为中心的视觉理解是一个重要的目标，本研究提出了一种新颖的基于语言的姿势推断策略，称为 LAMP，通过利用由语言模型生成的文本表示，LAMP 能够在实例级和关节级对姿势进行理解，并学习到更稳健的视觉表示，以应对多人姿态估计中的遮挡挑战。实验证明，语言监督训练提升了单阶段多人姿态估计的性能，实例级和关节级的提示对训练都是有价值的。

Abstract

human-centric visual understanding is an important desideratum for effective human-robot interaction. In order to navigate crowded public places, social robots must be able to interpret the activity of the surrounding humans. This paper addresses one key aspect of →

human-centric visual understanding multi-person pose estimation language-assisted pose inference occlusion challenges language-supervised training

发现论文，激发创造

通过联合身体分析和姿态估计网络探寻人物：一个新的基准测试

本文提出了一个名为 “Look into Person (LIP)” 的新数据集，其包含超过 50,000 张精细注释的图像，利用这些注释，作者进行了人体解析、姿势估计方法的详细分析，并提出了一种新的联合人体解析和姿势估计网络以及简化网络以解决人体解析的方法。

Apr, 2018

Language2Pose: 自然语言基础姿态预测

本文提出了一种名为 JL2P 的神经架构，采用课程学习方法来解决如何将语言概念映射到动作动画的核心建模挑战，并在公开语料库上进行了测试，表明我们的方法能够生成更准确的动画。

Jul, 2019

基于局部关节到人员关联的多人姿态估计

本文提出了一种基于整数线性规划的方法来解决多人姿态估计的问题，并且在 MPII 人体多人姿态数据集上实现了与最先进方法相当的精度，但速度快了 6,000 到 19,000 倍。

Aug, 2016

针对多人姿态估计的学习本地化 - 全局上下文适应

本文研究了一种名为 LOGO-CAP 的多人姿势估计方法，该方法通过学习局部 - 全局上下文适应来实现准确的多人姿势估计。

Sep, 2021

基于 LLM 增强的提示调整的无数据多标签图像识别

提出了一种无需训练数据的多标签图像识别新框架，利用预训练大型语言模型（LLM）的知识学习提示，使预训练的视觉 - 语言模型（VLM）如 CLIP 适应多标签分类。通过向 LLM 提问获取关于对象的特性和背景的综合知识，为学习提示提供宝贵的文本描述。然后，通过考虑多标签依赖性，提出了一种层次化的提示学习方法，在对象具有相似属性或更有可能共现时，共享特定类别提示标记的子集。由于 CLIP 在视觉和语义上具有显著的对准性，从文本描述学习到的层次化提示被应用于推理过程中的图像分类。我们的框架为探索多个预训练模型之间的协同作用提供了一种新途径。在三个公共数据集（MS-COCO、VOC2007 和 NUS-WIDE）上进行的大量实验证明，我们的方法比现有方法取得更好的结果，尤其是在 MS-COCO 上的零样本多标签识别方法的 mAP 上超过 4.7%。

Mar, 2024

CLIP-Hand3D：基于上下文感知的 3D 手势姿态估计的利用

提出了一种称为 CLIP-Hand3D 的新颖的 3D 手势估计器，能够成功地将文本提示与不规则的详细姿势分布连接起来，并通过对姿势标签进行编码，形成相应的文本提示，并从中检索 3D 空间中的 21 个手关节，并对它们的空间分布进行编码以形成姿势感知特征，随后通过构建一个粗到细的网格回归器来最大化姿势 - 文本特征对的语义一致性，实验结果表明该模型相比使用相似规模骨干的方法，在几个公开手部基准测试中实现了更快的推断速度和最先进的性能。

Sep, 2023

来自语言模型的姿态先验

我们提出了一种零射类实验中的姿势优化方法，可在估计人体的 3D 姿势时强制执行准确的物理接触约束。我们的主要见解是，由于语言通常用于描述物理交互，大型预训练的基于文本的模型可以作为姿势估计的先验知识。因此，我们可以利用这一见解，通过将大型多模态模型（LMM）生成的自然语言描述符转化为可追踪的损失，以约束 3D 姿势优化。尽管方法简单，但我们的方法出人意料地产生了令人信服的人与人之间的接触姿势重建，正确捕捉了社交和物理互动的语义。我们证明了我们的方法与需要昂贵的人工标注联系点和训练专门模型的更复杂的最先进方法相媲美。此外，与以往方法不同的是，我们的方法为解决自体接触和人与人之间的接触提供了统一的框架。

May, 2024

PoseGPT：关于三维人体姿势的对话

PoseGPT 是一个框架，利用大型语言模型（LLMs）从图像或文本描述中理解和推理出 3D 人体姿势。它通过嵌入 SMPL 姿势作为多模态 LLM 中的独立信号标记来解决传统人体姿势估计方法的局限性，不仅简化了姿势预测，而且赋予了 LLMs 在推理人体姿势方面应用它们的世界知识的能力，从而在姿势估计上进行推理，创造了两项先进任务：姿势的假设生成和姿势估计的推理。PoseGPT 在这些新提出的任务上优于现有的多模态 LLMs 和特定任务的方法，并开辟了人体姿势分析的新方向。

Nov, 2023

多人无标记数据 3D 姿势估计

本文研究多人姿态估计问题，提出了一种基于多视图系统和深度学习的方法，通过使用图神经网络模型预测场景中不同人之间的视角对应关系，并使用多层感知器模型将 2D 点转换为每个人的 3D 姿态。该模型采用自监督学习方式进行训练，从而避免了对大规模 3D 数据集的依赖。

Dec, 2022

CLIPose: 预训练视觉语言知识下的类别级物体姿态估计

通过利用不同模态的丰富语义知识，以及多模态对齐和增强的方式，CLIPose 提出了一种新颖的 6D 姿态框架，以更好地实现对目标类别信息的学习和姿态估计，并在两个主流基准数据集上取得了最先进的性能。

Feb, 2024