Jul, 2023

LAMP: 多人姿态估计的语言提示利用

TL;DR人机交互中的以人为中心的视觉理解是一个重要的目标,本研究提出了一种新颖的基于语言的姿势推断策略,称为 LAMP,通过利用由语言模型生成的文本表示,LAMP 能够在实例级和关节级对姿势进行理解,并学习到更稳健的视觉表示,以应对多人姿态估计中的遮挡挑战。实验证明,语言监督训练提升了单阶段多人姿态估计的性能,实例级和关节级的提示对训练都是有价值的。