Mar, 2021
使用Transformer进行端到端可训练的多实例姿态估计
End-to-End Trainable Multi-Instance Pose Estimation with Transformers
TL;DR本研究提出了一种称为POET(POse Estimation Transformer)的端到端可训练的多实例姿态估计方法,通过将卷积神经网络与变压器编解码器结合,直接将多实例姿态估计从图像中预测出来。我们使用一种新的全局集合损失来训练POET,包括关键点损失,可见性损失和类别损失,证明其在COCO关键点检测任务上具有高精度和高速度。此外,我们还展示了将POET应用于动物姿态估计时的成功迁移学习。这是第一个端到端可训练的多实例姿态估计方法,是一个有前途的替代方法。