利用多模态数据进行单目实时手部形状和运动捕捉

CVPRMar, 2020

利用多模态数据进行单目实时手部形状和运动捕捉

Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data

Yuxiao Zhou, Marc Habermann, Weipeng Xu, Ikhsanul Habibie, Christian Theobalt...

TL;DR本研究提出了一种能够在 100fps 下具有最先进精度的单目手部形状和姿态估计新方法，它采用的是一种新的基于学习的架构设计，使其能够利用三维或二维标注图像数据以及独立的三维动画等所有可用的手部训练数据。该方法的输出使其更适用于计算机视觉和图形学领域中的应用，并且在数个具有挑战性的基准测试中取得了显著的定量和定性改善。

Abstract

We present a novel method for monocular hand shape and pose estimation at unprecedented runtime performance of 100fps and at state-of-the-art accuracy. This is enabled by a new →

monocular hand shape pose estimation learning based architecture 3d joint detection inverse kinematics

发现论文，激发创造

使用单目摄像头实时捕捉带有部件相关性的全身动作

该研究提出了一种用于实时全身捕捉的方法，可以从一张彩色图像中估计身体和手部的形状和运动，同时还可以生成带有动态 3D 面部模型的手部和身体。其方法采用了一个新的神经网络架构，可以高效地利用身体和手部之间的相关性。与先前的方法不同，该方法可以在多个数据集上进行联合训练，而无需同时注释所有部分的数据，从而实现了更好的泛化能力。该方法可以更准确地捕获面部表情和颜色，还可以估计统计面部模型的形状，表情，颜色和照明参数。在公共基准测试中，该方法达到了竞争性的准确性，但速度更快，提供了更完整的面部重建。

Dec, 2020

使用单个深度相机实时重建相互作用的两只手的姿态和形状

本论文提出了一种新思路，用于实时跟踪并重构双手的姿态和形状。该方法通过能源最小化框架，将手部姿态和形状模型以及基于深度神经网络的高密度对应预测器嵌入其中，以实现快速运行，实时处理以及自动化调整。同时，文中还提到，该模型得到了场景复杂度不断升级的改进，并达到了同类研究领域的最高水准。

Jun, 2021

野外实时 3D 手势估计的单帧 RGB 图像方法

使用单个 RGB 摄像头，结合深度学习技术和手部姿态估计技术，实时估计手部的 3D 姿态，拓展了 RGBD 传感器的应用范围。

Dec, 2017

单目事件相机下两只交互手的 3D 姿态估计

提出了首个从单目事件摄像机中跟踪两只快速移动和互动的手的三维跟踪框架，通过新颖的半监督特征注意机制解决左右手歧义并整合相交损失来修复手的碰撞，推出了新的大规模数据集 Ev2Hands-S 和真实事件流与真实三维标注的基准数据集 Ev2Hands-R，并在强光条件下对真实数据具有更高的三维重建精度。

Dec, 2023

使用单目 RGB 进行双手全局 3D 姿态估计

本文提出了一种基于卷积神经网络的多阶段流水线方法，仅通过单眼红绿蓝彩色图像在众多的干扰因素下，准确分割和定位手部区域并估计 2D 和 3D 的关节点位置；采用新颖的投影算法计算相对相机坐标系的全局关节点位置，为此引入大规模合成 3D 手部姿态数据集。在 RGB-only 信息下，本文超越了以往的 3D 典型手部姿态估计基准数据集；此外，本文提供了 RGB-only 输入下首个实现双手的准确全局 3D 手部跟踪，并进行了广泛的定量和定性评估。

Jun, 2020

野外单目全身捕捉：头、身体和手势的姿态捕捉

本文提出了一种从单目视角输入捕获目标人物 3D 运动的方法，利用 3D 可变形网格模型重建运动，使用 3D 部分方向场对所有身体部位的 3D 方向进行编码，在训练集和性能评估方面表现良好，并在各种挑战性的野外视频上演示了总体运动捕捉的结果。

Dec, 2018

FrankMocap：通过回归和整合快速进行单目三维手部和身体动作捕捉

本文描述了 FrankMocap，它是一种运动捕捉系统，可以从野外单目输入中估计 3D 手部和身体运动，速度更快（9.5 fps）而且比以前的方法精度更高，该方法在近实时（9.5 fps）工作，并将 3D 手和身体运动捕捉输出作为统一参数模型结构产生。

Aug, 2020

RGB2Hands: 从单目 RGB 视频中实时跟踪三维手部交互

该论文提出了一种使用单个 RGB 相机捕捉人手骨骼姿势和三维表面几何形状的实时方法，并考虑到了人手间的近距离交互情况，该方法通过多任务 CNN 回归多种信息，包括分割、对 3D 手模型的密集匹配、2D 关键点位置，以及新提出的手内相对深度和手间距离图。该方法已在 RGB 两只手追踪和三维重建方面实验验证，并且在量化和定性上优于现有的非针对两只手交互设计的基于 RGB 的方法，甚至与基于深度的实时方法相媲美。

Jun, 2021

从单一 RGB 图像中估计 3D 手型和姿势

本文提出了一种基于图形卷积神经网络的方法，从单个 RGB 图像中估算手的 3D 形状和姿态，并通过含 3D 地面真值的大规模合成数据集和深度图弱监督学习进行训练，结果表明可以对手的 3D 网格进行准确和合理的重建，并在与现有最先进方法的比较中达到了更高的 3D 姿态估计准确性。

Mar, 2019

EventHands: 基于事件流的实时神经网络 3D 手部姿态估计

本文使用单个事件相机首次解决了从单目视频中估计 3D 手势姿态的问题，提出了一种新的神经方法，可在 1000Hz 的实时性能下具有高时间分辨率和低数据吞吐量等特征，并且在新生成的合成事件流上进行训练和泛化，该方法在准确性和捕捉前所未有的手部运动速度方面优于使用彩色（或深度）相机的最近单眼方法。

Dec, 2020