大规模多人姿态估计的精度提升
本研究通过引入两个新的概念 - instance cue 和 recurrent refinement 到已有的姿态估计模型中,以处理带有多个人的检测框,实现了更准确的姿态估计,并在 COCO17 关键点数据集上取得了较高的 mAP 得分。
Mar, 2020
本文针对使用 Mask RCNN 进行人体姿态估计时存在的性能问题及效率问题,提出了一种基于改进后的全局上下文模块和 ResNet-50 骨架的人体姿态估计方法,取得了较好的姿态估计效果和运行效率。
Jan, 2023
该论文提出了一种基于最新的人体检测和视频理解技术的轻量化人体关键点估计和跟踪方法,在帧级别和短视频片段中进行关键点估计,并进行轻量级跟踪,领先于多项竞争者,成为 2017 年 ICCV PoseTrack 的关键点跟踪挑战的最佳表现。
Dec, 2017
本文提出了一种名为 MSA R-CNN 的多尺度聚合方法,该方法通过多尺度 ROIAlign 块和多尺度关键点头网络来利用多尺度信息,并将人体检测和关键点定位合并到一个模型中,从而实现了较小的计算量,该方法在 2D 多人关键点本地化数据集上表现最佳。
May, 2019
提出了第一个直接的端到端多人姿态估计框架,称为 DirectPose,使用新的关键点对齐机制 (KPAlign),该机制提高了准确性,并消除了需在底部向上方法中处理的启发式分组或在自顶向下方法中进行边界框检测和 RoI 操作。实验证明,这一端到端模式在人体姿态估计任务中可以达到与之前强大基线相媲美或更好的表现。
Nov, 2019
通过改进下联式方法,提出了一种改进的多人姿势估计方法,该方法使用更直观却更合理的表示方法,具有 attention 机制的改进型叠叠层沙漏网络,专门用于 hard keypoint 和 keypoint 关联挖掘的新型 Focal L2 Loss 和用于将检测到的关键点分组为单个姿势的强大贪婪关键点分配算法,平均精度比基准线高约 15%,与 MS-COCO 测试数据集上的最新技术相当。
Nov, 2019
提出了 YOLO-pose 模型,它是一种不需要热力图的多人关键点检测和 2D 姿势估计方法。与现有的基于热力图的两阶段方法相比,该模型可以进行端到端的训练,并优化 Object Keypoint Similarity 指标。该模型在 COCO 测试集上取得了 90.3% 的 AP50 成果,不需要翻转测试、多尺度测试或任何其他测试时间增强。
Apr, 2022
本研究开发了一种新型关键点置信网络和跟踪流程,以改善自上而下方法中的人体检测和姿势估计,实验结果显示我们的方法在人体检测和姿势估计方面具有普适性,并在 PoseTrack 2017 和 2018 数据集上取得最先进的性能。
Oct, 2023
RTMO 是一个一阶姿势估计框架,通过在 YOLO 架构中使用双 1-D 热图来表示关键点,实现了与自顶向下方法相当的准确性,同时保持了较高的速度。它采用了动态坐标分类器和定制的损失函数来解决坐标分类和密集预测模型之间的不兼容性。RTMO 在 COCO val2017 上达到了 74.8% 的平均精度(AP),在单个 V100 GPU 上实现了 141 FPS 的高效和准确性。
Dec, 2023
通过提出的 HG-RCNN 网络,借助 Mask-RCNN 和 Hourglass 结构进行多人 3D 人体姿态估计,实现对每个感兴趣区域(RoI)中 2D 关键点的先预测后提升,最终采用弱透视投影模型和焦距和根偏移的联合优化将估计的 3D 姿态置于相机坐标系下,该网络简单模块化且无需多人 3D 姿态数据集,取得了 MuPoTS-3D 数据集的最优性能,并能近似在相机坐标系下估计 3D 姿态。
Sep, 2019