Mar, 2020

结合检测与跟踪进行视频中人体姿态估计

TL;DR本篇论文提出了一种新的自上而下的方法来解决多人姿态估计和视频跟踪问题,该方法利用影片中已知的人位置向前向后传递并在这些区域搜索姿势,通过此技术,不局限于个人检测器的性能并且可以预测未被检测到的人的姿势。这种方法包括三个组件:(i)在小视频片段上同时执行身体关节检测和跟踪的Clip Tracking Network;(ii)将Clip Tracking Network产生的固定长度轨迹片段合并为任意长度轨迹的Video Tracking Pipeline;(iii)基于空间和时间平滑项来细化关节位置的空间 - 时间合并过程的Spatial-Temporal Merging。由于我们的剪辑跟踪网络和合并过程的精度非常高,我们的方法可以在困难的场景(例如严重纠缠的人)中产生非常准确的关节预测,并在关节检测和跟踪方面实现了最先进的结果,对于PoseTrack 2017和2018数据集,并且超过了所有自上而下和自下而上的方法。