Mar, 2021

使用 Transformer 进行端到端可训练的多实例姿态估计

TL;DR本研究提出了一种称为 POET(POse Estimation Transformer)的端到端可训练的多实例姿态估计方法,通过将卷积神经网络与变压器编解码器结合,直接将多实例姿态估计从图像中预测出来。我们使用一种新的全局集合损失来训练 POET,包括关键点损失,可见性损失和类别损失,证明其在 COCO 关键点检测任务上具有高精度和高速度。此外,我们还展示了将 POET 应用于动物姿态估计时的成功迁移学习。这是第一个端到端可训练的多实例姿态估计方法,是一个有前途的替代方法。