只需 15 个关键点

CVPRDec, 2019

15 Keypoints Is All You Need

Michael Snower, Asim Kadav, Farley Lai, Hans Peter Graf

TL;DR提出了一种基于 KeyTrack 的多人姿势跟踪方法，使用 Pose Entailment 方法跟踪人体关键点，使用 Transformer-based 网络分类判断姿势是否在时间上紧随另一个姿势，同时还使用一种无需参数的关键点精细化技术改进估计方法，在 PoseTrack'17 和 PoseTrack'18 基准测试中取得了最先进的结果。

Abstract

pose tracking is an important problem that requires identifying unique human pose-instances and matching them temporally across different frames of a video. However, existing pose tracking methods are unable to a

pose tracking multi-person keytrack pose entailment transformer-based network

发现论文，激发创造

视频中高效姿态估计的检测与追踪

该论文提出了一种基于最新的人体检测和视频理解技术的轻量化人体关键点估计和跟踪方法，在帧级别和短视频片段中进行关键点估计，并进行轻量级跟踪，领先于多项竞争者，成为 2017 年 ICCV PoseTrack 的关键点跟踪挑战的最佳表现。

Dec, 2017

视频中多人姿态估计和跟踪的自监督关键点对应

为了解决视频标注成本高的问题，本文提出了一种方法，利用关键点对视频中的人进行关联。该方法在大规模图像数据集上进行自我监督训练，并与自上而下的人体姿势估计框架相结合，使用关键点对视频帧中的人进行关联，从而实现多帧姿态估计和多人姿态跟踪的最先进结果。

Apr, 2020

关键点社群

用快速的自下而上的方法，结合图形中心性度量对人类或物体上的 100 多个关键点进行检测，为硬件和人物建模，量化关键点的独立性，将训练权重分配给不同部位的姿势。经实验证明该方法优于以往的所有人体姿势估计方法，而且具有很好的泛化性能。

Oct, 2021

借助置信度网络优化多人姿态跟踪

本研究开发了一种新型关键点置信网络和跟踪流程，以改善自上而下方法中的人体检测和姿势估计，实验结果显示我们的方法在人体检测和姿势估计方面具有普适性，并在 PoseTrack 2017 和 2018 数据集上取得最先进的性能。

Oct, 2023

DirectPose：直接端到端的多人姿势估计

提出了第一个直接的端到端多人姿态估计框架，称为 DirectPose，使用新的关键点对齐机制 (KPAlign)，该机制提高了准确性，并消除了需在底部向上方法中处理的启发式分组或在自顶向下方法中进行边界框检测和 RoI 操作。实验证明，这一端到端模式在人体姿态估计任务中可以达到与之前强大基线相媲美或更好的表现。

Nov, 2019

PoseTrack：联合多人姿态估计与跟踪

本文介绍了一个具有挑战性的问题，即在不受限制的视频中联合估计和跟踪未知数量的人的多人姿态。为此，我们提出一种新方法，将多人姿势估计和跟踪联合建模在一个公式中，使用时空图表示身体关节检测，在图上使用整数线性规划将其划分为子图，对应于每个人的可能身体姿势轨迹，该方法隐含处理遮挡和截断的问题。我们还提出了一个完全不受限制的评估协议和具有挑战性的 “Multi-Person PoseTrack” 数据集，评估了所提出的方法和几个基线方法在我们的新数据集上的表现。

Nov, 2016

人体姿态识别与跟踪的自顶向下方法

使用自顶向下的方法，建立了一个由三个模块组成的强基准系统，分别为人体候选检测器、单人姿态估计器和人体姿态跟踪器。该方法使用了先进的通用物体检测器来检测人体候选者，并使用级联金字塔网络来估计相应的人体姿态，最后使用基于光流的姿态跟踪器进行多目标姿态跟踪。经过大量实验验证了各种模型和配置，该方法成功参加了两个 ECCV18 PoseTrack 挑战：姿态估计和姿态跟踪。

Jan, 2019

结合检测与跟踪进行视频中人体姿态估计

本篇论文提出了一种新的自上而下的方法来解决多人姿态估计和视频跟踪问题，该方法利用影片中已知的人位置向前向后传递并在这些区域搜索姿势，通过此技术，不局限于个人检测器的性能并且可以预测未被检测到的人的姿势。这种方法包括三个组件：（i）在小视频片段上同时执行身体关节检测和跟踪的 Clip Tracking Network；（ii）将 Clip Tracking Network 产生的固定长度轨迹片段合并为任意长度轨迹的 Video Tracking Pipeline；（iii）基于空间和时间平滑项来细化关节位置的空间 - 时间合并过程的 Spatial-Temporal Merging。由于我们的剪辑跟踪网络和合并过程的精度非常高，我们的方法可以在困难的场景（例如严重纠缠的人）中产生非常准确的关节预测，并在关节检测和跟踪方面实现了最先进的结果，对于 PoseTrack 2017 和 2018 数据集，并且超过了所有自上而下和自下而上的方法。

Mar, 2020

无监督学习视频中的可解释关键点

本文提出了 KeypointGAN 方法，通过从未标注的视频和基于弱领域先验知识的学习，仅使用单个图像就可以识别物体的姿态，利用一个新的物体的双重表示方法，并且这种方法可以在不使用标注图像的情况下获得最新的成果。

Jul, 2019

具有空间和时间嵌入的多人关节跟踪

本文提出了一个统一的框架，用于实现多人姿态估计和跟踪，包含两个主要组件 SpatialNet 和 TemporalNet，其中 SpatialNet 在单帧中实现了身体部位检测和部位级别的数据关联，而 TemporalNet 则将连续帧中的人类实例分组为轨迹。

Mar, 2019