ZoomNAS: 在野外搜索全身人体姿势估计
本研究提出了一种新的单一神经网络方法,用于 2D 全身姿势估计,并可同时定位身体、面部、手和足关键点。该方法采用一种底部上的公式,使其在图像中的人数不论多少,都能保持恒定的实时性能。神经网络采用多任务学习,经过改进的结构可以处理身体 / 脚和面部 / 手关键点之间的尺度差异。这种方法在速度和全球精度方面都显著优于 OpenPose,并且不像 OpenPose 那样需要为每个手和面候选者运行额外的网络,因此在多人场景中速度更快。本文的研究结果进一步降低了需要 2D 全身信息的应用程序(例如 VR / AR,重新定位)的计算复杂性,而且在面部和手部模糊、低分辨率等情况下,准确率更高。
Sep, 2019
本文介绍了一个实时运行的系统 AlphaPose,它可以同时执行准确的全身姿势估计和跟踪。我们使用了几种新技术,包括对称积分关键点回归(SIKR)用于快速和精确的定位,参数化姿势非最大抑制(P-NMS)用于消除冗余的人体检测和姿势感知身份嵌入,用于联合姿势估计和跟踪。我们的方法能够准确地定位全身关键点并同时跟踪人,可以显著提高 COCO-wholebody,COCO,PoseTrack 和我们提出的 Halpe-FullBody 姿势估计数据集的速度和准确性。
Nov, 2022
我们提出了一个新的框架来增强全身姿势和形状估计的鲁棒性,其中包括三个模块以从三个角度解决上述挑战:1)定位模块,2)对比特征提取模块,3)像素对齐模块,并通过全面实验证明了该框架在身体、手、脸和全身基准测试上的有效性。
Dec, 2023
我们提出了一种新颖的神经架构搜索方法 ViPNAS,用于快速在线视频姿势估计,通过在空间和时间级别上搜索网络来实现更好的准确度和效率之间的权衡。在时间级别上,我们首次搜索了视频中的时间特征融合和自动计算分配。我们的实验结果表明,我们的方法在 CPU 实时推导速度方面比先前的最先进方法快而不牺牲准确性。
May, 2021
本文提出一种多任务学习框架,采用深度神经网络进行实现,用于从静止深度图像中预测人体姿态,并使用 MatchNet 协助推断。在大规模数据集上的实验证明该框架可以显著提高人体姿态估计的准确度。
Aug, 2016
本文提出了一种从稠密对应的人体部位进行学习的方法,通过构建 2D 像素与 3D 顶点之间的桥梁,提出了解决非线性、位移等问题的 Decompose-and-Aggregate 网络(DaNet),并给出了一种利用空间关系的位置辅助旋转特征细化策略来提高鲁棒性的姿态预测策略,发现该方法显著提高了重建性能。
Dec, 2019
AutoPose 是一种新颖的神经架构搜索(NAS)框架,它能够自动发现多个跨尺度连接的平行分支,以实现准确和高分辨率的 2D 人体姿态估计,通过搜索多分支尺度和网络深度,以及在细胞水平进行搜寻的方法,它在短短 2.5 GPU 天内,在 MS COCO 数据集上找到了竞争力非常强的架构,可传递到 MPII 数据集。
Aug, 2020
本文提出了一种名为 ZoomNet 的新型框架,同时采用 2D 对象检测模型和自适应缩放模块进行立体图像的 3D 检测,超过了所有以前的最先进方法,并且引入了学习部件位置和 3D 拟合得分来改善对遮挡物的抵抗,且由于 KITTI 基准测试缺少细粒度注释如像素级部件位置,因此我们还提出了我们的 KFG 数据集。
Mar, 2020
本文提出了一种从单目视角输入捕获目标人物 3D 运动的方法,利用 3D 可变形网格模型重建运动,使用 3D 部分方向场对所有身体部位的 3D 方向进行编码,在训练集和性能评估方面表现良好,并在各种挑战性的野外视频上演示了总体运动捕捉的结果。
Dec, 2018