通过整合自上而下和自下而上网络进行单目3D多人姿态估计
本文旨在提高多人场景下的关节姿态估计技术。为此,我们在三个方面做出了贡献: 提出了改进的身体部位检测器、新颖的图像条件下的成对项以及一种递增优化策略。我们的方法在多人姿态估计任务中表现得更加优秀,并在单人姿态估计任务上展现出了竞争性的性能。
May, 2016
本文提出了一种基于整数线性规划的方法来解决多人姿态估计的问题,并且在 MPII 人体多人姿态数据集上实现了与最先进方法相当的精度,但速度快了 6,000 到 19,000 倍。
Aug, 2016
提出了一种新的单次拍摄的方法来从单目RGB相机中对一般场景中的多人进行3D姿态估计,该方法使用新颖的鲁棒姿势地图(ORPM),该地图能够在其他人和场景中的强烈部分遮挡下实现全身姿态推断,并通过人体部位关联,在不需要显式边界框预测的情况下推断任意数量的人的3D姿态,并通过实际图像中显示的大型多人交互和遮挡的第一个大规模训练数据集MuCo-3DHP进行培训,并在我们的新挑战性的3D注释多人测试集MuPoTs-3D上取得了良好的性能。
Dec, 2017
通过改进下联式方法,提出了一种改进的多人姿势估计方法,该方法使用更直观却更合理的表示方法,具有 attention 机制的改进型叠叠层沙漏网络,专门用于 hard keypoint 和 keypoint 关联挖掘的新型 Focal L2 Loss 和用于将检测到的关键点分组为单个姿势的强大贪婪关键点分配算法,平均精度比基准线高约 15%,与 MS-COCO 测试数据集上的最新技术相当。
Nov, 2019
本篇论文提出了一种新的自上而下的方法来解决多人姿态估计和视频跟踪问题,该方法利用影片中已知的人位置向前向后传递并在这些区域搜索姿势,通过此技术,不局限于个人检测器的性能并且可以预测未被检测到的人的姿势。这种方法包括三个组件:(i)在小视频片段上同时执行身体关节检测和跟踪的Clip Tracking Network;(ii)将Clip Tracking Network产生的固定长度轨迹片段合并为任意长度轨迹的Video Tracking Pipeline;(iii)基于空间和时间平滑项来细化关节位置的空间 - 时间合并过程的Spatial-Temporal Merging。由于我们的剪辑跟踪网络和合并过程的精度非常高,我们的方法可以在困难的场景(例如严重纠缠的人)中产生非常准确的关节预测,并在关节检测和跟踪方面实现了最先进的结果,对于PoseTrack 2017和2018数据集,并且超过了所有自上而下和自下而上的方法。
Mar, 2020
提出了一种新的框架,将图卷积神经网络(GCNs)和时间卷积神经网络(TCNs)相结合,以强韧地估计无需摄像机参数即可实现相机中心多人3D姿态的方法。该方法利用可见关节和骨头信息来估计遮挡或缺失的人体部分信息,并结合使用GCNs和TCNs的方法。定量和定性评估表明,所提出的方法具有实际应用效果。
Dec, 2020
提出了一种名为SIMPLE的多人姿势估计框架,该框架通过模仿和点学习来提高其精度,并将人体检测和姿势估计作为单一网络中统一的点学习框架来互补,与以前的研究不同的是,其在姿势估计中首次提出了不同方法类型之间的模仿策略和统一的点学习。在COCO、MPII和PoseTrack数据集上,SIMPLE的性能超越了以前的底部方法,与顶部方法相比具有可比的准确性和更快的推理速度。
Apr, 2021
本文提出了一种基于多视图图像的多人姿态估计方法,在统计参数体模型的引导下,这种方法能够更好地纠正不合理的3D姿态估计和填充缺失的关节点检测,将2D和3D观测联系起来,从而更准确地估计3D姿态并且具有较好的泛化性能,实验表明该方法的效果优于现有的方法。
Oct, 2021
本论文提出了一种新的统一模型,通过结构化2.5D姿势估计和端到端几何感知深度推理方法相结合,解决了估计单目多人3D姿势以摄像机为中心坐标的问题,相比于现有的自顶向下和自底向上方法,我们的模型在准确性和速度方面都表现出色。
Jul, 2022
该研究论文讨论了通过多个校准相机捕捉的近距离互动中多个个体的姿势重建的挑战性任务,并提出了一种整合了学习为基础的姿势估计组件和相应的训练和推断策略的系统。该系统利用多视图2D关键点热图作为输入,使用3D条件体积网络重建每个个体的姿势,通过合成大规模的模拟测试场景中真实数据分布的训练数据集,实现了对姿势准确性的显著提升,并且在不同相机配置和人群规模下具有很好的泛化性能。
Jan, 2024