VNect：使用单个 RGB 相机进行实时 3D 人体姿态估计

May, 2017

VNect：使用单个 RGB 相机进行实时 3D 人体姿态估计

VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera

Dushyant Mehta, Srinath Sridhar, Oleksandr Sotnychenko, Helge Rhodin, Mohammad Shafiei...

TL;DR采用单一 RGB 相机，我们提出了第一个实时方法来稳定地连续捕捉人类的全局三维骨架姿态，并结合卷积神经网络和运动学骨骼拟合，成功实现了单目 RGB 方法，避免了使用专门的 RGB-D 相机，同时具有优越的性能和实用价值。

Abstract

We present the first real-time method to capture the full global 3D skeletal pose of a human in a stable, temporally consistent manner using a single RGB camera. Our method combines a new convolutional neural network

real-time method 3d skeletal pose rgb camera convolutional neural network kinematic skeleton fitting

发现论文，激发创造

XNect: 单目 RGB 相机多人实时 3D 动作捕捉

本文提出了一种实时的多人三维运动捕捉方法，使用单个 RGB 相机以超过 30fps 的速度进行，利用卷积神经网络和全连接神经网络来估计每个人的 2D 和 3D 姿态特征，并在空间 - 时间骨骼模型拟合后返回完整的骨骼姿态，相较于以往方法，本方法在多人场景中以前所未有的速度返回全局姿态。

Jul, 2019

野外实时 3D 手势估计的单帧 RGB 图像方法

使用单个 RGB 摄像头，结合深度学习技术和手部姿态估计技术，实时估计手部的 3D 姿态，拓展了 RGBD 传感器的应用范围。

Dec, 2017

使用单目 RGB 进行双手全局 3D 姿态估计

本文提出了一种基于卷积神经网络的多阶段流水线方法，仅通过单眼红绿蓝彩色图像在众多的干扰因素下，准确分割和定位手部区域并估计 2D 和 3D 的关节点位置；采用新颖的投影算法计算相对相机坐标系的全局关节点位置，为此引入大规模合成 3D 手部姿态数据集。在 RGB-only 信息下，本文超越了以往的 3D 典型手部姿态估计基准数据集；此外，本文提供了 RGB-only 输入下首个实现双手的准确全局 3D 手部跟踪，并进行了广泛的定量和定性评估。

Jun, 2020

RGBD 图像中的人体姿态三维估计用于机器人任务学习

利用 RGBD 图像估算 3D 人体姿态，通过关键点检测器和深度信息实现 3D 提升，在真实环境下通过学习演示框架指示服务机器人模仿人类教师的操作，超越了单眼调色板和深度姿态估计方法的性能。

Mar, 2018

野外单目 3D 人体姿势估计基于优化 CNN 监督

提出了一种基于 CNN 的方法，利用现有的 3D 姿势数据和 2D 姿势数据进行迁移学习，在真实场景中实现了最先进的性能，同时引入了一个人类身体姿势估计的新训练集，并提出了一个覆盖室内和室外场景的新基准。

Nov, 2016

使用三维卷积神经网络实现时空人体姿态估计

本研究探讨了卷积神经网络在处理单目视觉下 3D 人体姿态感知任务方面的能力，通过将时间维度编码在卷积空间中的第三个维度，直接回归到 3D 坐标空间中的人体关节位置，从而在选定的 Human3.6M 数据集上展示了该网络达到了最先进的性能。

Aug, 2016

基于虚拟相机的自由移动物体重建与姿态估计

我们提出了一种从单目 RGB 视频中重建自由移动物体的方法，无需任何先验信息，通过基于隐式神经表示同时优化对象的形状和姿态，其中方法的关键是一个虚拟摄像机系统，显著减小了优化的搜索空间。通过在 HO3D 数据集和佩戴在头部设备上捕获的主观 RGB 序列上的评估，我们证明了该方法明显优于大多数方法，并且与假设先验信息的最新技术相媲美。

May, 2024

LiveCap: 实时从单目视频中捕捉人类表现

论文提出了一种实时捕获全身人类表现的全新方法，能够通过单个 RGB 视频重建完整人类的密集、时空一致变形几何形态，通过二阶段的分析合成优化策略实现精细的人类表现捕获，并且结合了 4D 运动捕捉，利用材料区域的自动识别进行模型优化，从而实现最终的实时全身表现捕捉。

Oct, 2018

使用教师 - 学生学习的轻量级 3D 人体姿势估计网络训练

本篇论文提出了 MoVNect 模型，采用单个 RGB 相机捕捉 3D 人体姿态。我们采用师生级联学习模型蒸馏技术提高模型性能，使用实时后处理技术使 CNN 输出产生具有时间稳定性的 3D 骨骼信息，从而实现了高精度和快速推断时间。 extensive 评估表明我们的轻量级模型与所提出的训练方法相比，在 Human3.6M 数据集和移动设备上具有显着优势。

Jan, 2020

使用单目摄像头实时捕捉带有部件相关性的全身动作

该研究提出了一种用于实时全身捕捉的方法，可以从一张彩色图像中估计身体和手部的形状和运动，同时还可以生成带有动态 3D 面部模型的手部和身体。其方法采用了一个新的神经网络架构，可以高效地利用身体和手部之间的相关性。与先前的方法不同，该方法可以在多个数据集上进行联合训练，而无需同时注释所有部分的数据，从而实现了更好的泛化能力。该方法可以更准确地捕获面部表情和颜色，还可以估计统计面部模型的形状，表情，颜色和照明参数。在公共基准测试中，该方法达到了竞争性的准确性，但速度更快，提供了更完整的面部重建。

Dec, 2020