DeciWatch: 一个简单的基准模型，实现 10 倍效率的 2D 和 3D 姿态估计

ECCVMar, 2022

DeciWatch: 一个简单的基准模型，实现 10 倍效率的 2D 和 3D 姿态估计

DeciWatch: A Simple Baseline for 10x Efficient 2D and 3D Pose Estimation

Ailing Zeng, Xuan Ju, Lei Yang, Ruiyuan Gao, Xizhou Zhu...

TL;DR本文提出了名为 DeciWatch 的视频人体姿态估计基线框架，引入了一种简单而有效的样本 - 去噪 - 恢复框架，通过采样稀疏帧并利用人体运动的连续性和轻量级姿态表示。具体来说，DeciWatch 均匀采样少于 10% 的视频帧进行详细估计，使用高效 Transformer 架构去噪估计的 2D/3D 姿势，然后使用另一个基于 Transformer 的网络精确恢复其余帧。在三个视频人体姿势估计实验和四个数据集上，全面的实验结果验证了 DeciWatch 的效率和有效性。

Abstract

This paper proposes a simple baseline framework for video-based 2D/3D human pose estimation that can achieve 10 times efficiency improvement over existing works without any performance degradation, named deciwatch

video-based human pose estimation deciwatch transformer architecture efficiency improvement motion continuity

发现论文，激发创造

视频中高效姿态估计的检测与追踪

该论文提出了一种基于最新的人体检测和视频理解技术的轻量化人体关键点估计和跟踪方法，在帧级别和短视频片段中进行关键点估计，并进行轻量级跟踪，领先于多项竞争者，成为 2017 年 ICCV PoseTrack 的关键点跟踪挑战的最佳表现。

Dec, 2017

用于人体姿态估计和跟踪的简单基线

该研究提供了简单有效的基准方法，对于启发和评估领域中的新想法非常有帮助，并在具有挑战性的基准测试中取得了最先进的结果。

Apr, 2018

3D 人体姿态估计的简单而有效的基准线

通过构建一个借助于当前技术能在控制误差较低前提下从 2D 开环位置中提取 3D 位置任务的相对简单的深度前向网络，我们发现了现代深度 3D 姿态估计系统的可视分析引起的错误是其主要问题。

May, 2017

从视频中估计 3D 人体姿态和网格的共同演化

提出了一种 Pose and Mesh Co-Evolution 网络（PMCE），通过将任务分解为视频中基于 3D 人体姿势估计和来自估计的 3D 姿势和时间图像特征的网格顶点回归，解决了从视频中准确、平滑地恢复 3D 人体运动的问题。实验证明，该方法在三个基准数据集（3DPW、Human3.6M 和 MPI-INF-3DHP）上在逐帧准确度和时间一致性方面优于先前的最先进方法。

Aug, 2023

一个带有上下文的单一 2D 姿势对于 3D 人体姿势估计价值百倍

使用现有的 2D 姿态检测器产生的中间可视化表示，从而获得姿态的空间上下文信息。通过设计一个名为 Context-Aware PoseFormer 的简单基线方法来展示其有效性，该方法在速度和精度方面明显优于其他使用数百个视频帧的最先进方法。

Nov, 2023

MetaPose: 无需 3D 监督，快速从多视图中获得 3D 姿态

本文介绍如何使用神经网络模型进行多摄像头人体姿势估计，在考虑多角度遮挡及联合位置不确定性情况下，使用 2D 关键点数据进行训练。相比于经典捆绑调整与弱监督单目 3D 基线方法，我们的模型在 Human3.6M 和 Ski-Pose PTZ 数据集上表现更好。

Aug, 2021

从视频中学习三维人体动力学

通过观察人类运动的视觉序列，我们可以轻松猜测人在过去和未来的 3D 运动。我们提出了一个可以学习人类 3D 动力学表示的框架，通过简单而有效的图像特征时间编码。在测试过程中，学习到的时空表示能够预测具有平稳性的 3D 网格。我们的模型可以从单个图像中恢复当前的 3D 网格以及它未来和过去的 3D 运动，同时也可以通过半监督学习从带有 2D 姿态标注的自然视频中学习。我们通过对来自互联网海量未标记数据的模型训练，通过已有的 2D 姿态检测器得到伪基础真值 2D 姿态，证明了我们的模型可以自举学习并在三维动作预测任务中获得最新的性能。

Dec, 2018

SoloPose: 基于视频数据增强的一次性运动学 3D 人体姿势估计

本文介绍了 SoloPose，一种新颖的一次性、多对多的时空转换模型，用于视频中的运动学 3D 人体姿势估计。SoloPose 进一步加强了 HeatPose，一种基于高斯混合模型分布的 3D 热图，它对目标关键点和动力学相邻关键点进行因素分解。最后，我们通过 3D AugMotion 工具包解决了数据多样性限制问题，该方法通过将四个顶级公共 3D 人体姿势数据集（Humans3.6M、MADS、AIST Dance++、MPI INF 3DHP）投影到一个新的数据集（Humans7.1M）中，使用了一个通用的坐标系统。在 Human3.6M 和增强的 Humans7.1M 数据集上进行了大量实验证明，SoloPose 相对于最先进的方法具有优越的结果。

Dec, 2023

实现超过 100 FPS 的多人 3D 姿态估计的跨视图跟踪

本论文提出了一种基于多个校准相机视角的、面向实时应用的多人三维姿态估计解决方案，利用视频中的时间一致性直接在三维空间中匹配二维输入与三维姿态，通过跨视图多人跟踪迭代地更新姿态，从而提高了准确性和效率，并介绍了新的大规模多人数据集。

Mar, 2020

利用时间上下文对野外三维人体姿态估计进行改进

该研究通过基于束调整的算法从单眼视频中恢复准确的 3D 人体姿势和网格，通过在整个序列上重建人体来提供额外的约束并解决歧义问题。同时，该研究提出了一个包含超过 3 百万帧来自 Kinetics 的 YouTube 视频数据集，能够提高 3D 运动估计的准确性，该算法具有实际意义。

May, 2019