利用多模态数据进行单目实时手部形状和运动捕捉
该研究提出了一种用于实时全身捕捉的方法,可以从一张彩色图像中估计身体和手部的形状和运动,同时还可以生成带有动态 3D 面部模型的手部和身体。其方法采用了一个新的神经网络架构,可以高效地利用身体和手部之间的相关性。与先前的方法不同,该方法可以在多个数据集上进行联合训练,而无需同时注释所有部分的数据,从而实现了更好的泛化能力。该方法可以更准确地捕获面部表情和颜色,还可以估计统计面部模型的形状,表情,颜色和照明参数。在公共基准测试中,该方法达到了竞争性的准确性,但速度更快,提供了更完整的面部重建。
Dec, 2020
本论文提出了一种新思路,用于实时跟踪并重构双手的姿态和形状。该方法通过能源最小化框架,将手部姿态和形状模型以及基于深度神经网络的高密度对应预测器嵌入其中,以实现快速运行,实时处理以及自动化调整。同时,文中还提到,该模型得到了场景复杂度不断升级的改进,并达到了同类研究领域的最高水准。
Jun, 2021
提出了首个从单目事件摄像机中跟踪两只快速移动和互动的手的三维跟踪框架,通过新颖的半监督特征注意机制解决左右手歧义并整合相交损失来修复手的碰撞,推出了新的大规模数据集 Ev2Hands-S 和真实事件流与真实三维标注的基准数据集 Ev2Hands-R,并在强光条件下对真实数据具有更高的三维重建精度。
Dec, 2023
本文提出了一种基于卷积神经网络的多阶段流水线方法,仅通过单眼红绿蓝彩色图像在众多的干扰因素下,准确分割和定位手部区域并估计 2D 和 3D 的关节点位置;采用新颖的投影算法计算相对相机坐标系的全局关节点位置,为此引入大规模合成 3D 手部姿态数据集。在 RGB-only 信息下,本文超越了以往的 3D 典型手部姿态估计基准数据集;此外,本文提供了 RGB-only 输入下首个实现双手的准确全局 3D 手部跟踪,并进行了广泛的定量和定性评估。
Jun, 2020
本文提出了一种从单目视角输入捕获目标人物 3D 运动的方法,利用 3D 可变形网格模型重建运动,使用 3D 部分方向场对所有身体部位的 3D 方向进行编码,在训练集和性能评估方面表现良好,并在各种挑战性的野外视频上演示了总体运动捕捉的结果。
Dec, 2018
本文描述了 FrankMocap,它是一种运动捕捉系统,可以从野外单目输入中估计 3D 手部和身体运动,速度更快(9.5 fps)而且比以前的方法精度更高,该方法在近实时(9.5 fps)工作,并将 3D 手和身体运动捕捉输出作为统一参数模型结构产生。
Aug, 2020
该论文提出了一种使用单个 RGB 相机捕捉人手骨骼姿势和三维表面几何形状的实时方法,并考虑到了人手间的近距离交互情况,该方法通过多任务 CNN 回归多种信息,包括分割、对 3D 手模型的密集匹配、2D 关键点位置,以及新提出的手内相对深度和手间距离图。该方法已在 RGB 两只手追踪和三维重建方面实验验证,并且在量化和定性上优于现有的非针对两只手交互设计的基于 RGB 的方法,甚至与基于深度的实时方法相媲美。
Jun, 2021
本文提出了一种基于图形卷积神经网络的方法,从单个 RGB 图像中估算手的 3D 形状和姿态,并通过含 3D 地面真值的大规模合成数据集和深度图弱监督学习进行训练,结果表明可以对手的 3D 网格进行准确和合理的重建,并在与现有最先进方法的比较中达到了更高的 3D 姿态估计准确性。
Mar, 2019
本文使用单个事件相机首次解决了从单目视频中估计 3D 手势姿态的问题,提出了一种新的神经方法,可在 1000Hz 的实时性能下具有高时间分辨率和低数据吞吐量等特征,并且在新生成的合成事件流上进行训练和泛化,该方法在准确性和捕捉前所未有的手部运动速度方面优于使用彩色(或深度)相机的最近单眼方法。
Dec, 2020