一种基于单一 RGB 图像的立体交互手姿态估计数据集和基准线
该研究提出了 Re:InterHand 数据集,通过使用先进的手部重光网络和准确跟踪的两只手的三维姿势,实现了多样和逼真的图像外观和多样和大规模的地面真实(GT)三维姿势,在现有的三维互动手数据集的基础上进行了对比,并展示了其益处。
Oct, 2023
本研究介绍了一个大型多视角手部数据库,并提出了一种迭代的半自动方法,用于将三维手部姿势和形状标注应用于该数据库,以解决基于单个 RGB 图像的三维手部姿势估计的高度不确定性问题,并评估了模型的性能。
Sep, 2019
为了提高手部姿势估计的准确性,研究提出了一个大规模的合成数据集 RenderIH,其中包含 100 万张具有不同背景、视角和手部纹理的逼真照片。为了生成自然和多样化的交互姿势,提出了一种新的姿势优化算法。而用于姿势估计的基于 Transformer 的模型 TransHand 则能够利用交互手部之间的相关性,并验证 RenderIH 在改善结果方面的有效性。经过实验证明,使用该合成数据集进行预训练可以显著将误差从 6.76mm 降至 5.79mm,并且 TransHand 在性能上超越了其他方法。
Sep, 2023
该研究提出了一种新的处理双手交互姿态估计的方法,包括手部去遮挡和干扰物去除,建立了大规模合成数据集以促进研究发展,并显示该方法显著优于先前的同类研究。
Jul, 2022
该论文提出了一种使用单个 RGB 相机捕捉人手骨骼姿势和三维表面几何形状的实时方法,并考虑到了人手间的近距离交互情况,该方法通过多任务 CNN 回归多种信息,包括分割、对 3D 手模型的密集匹配、2D 关键点位置,以及新提出的手内相对深度和手间距离图。该方法已在 RGB 两只手追踪和三维重建方面实验验证,并且在量化和定性上优于现有的非针对两只手交互设计的基于 RGB 的方法,甚至与基于深度的实时方法相媲美。
Jun, 2021
提出了首个从单目事件摄像机中跟踪两只快速移动和互动的手的三维跟踪框架,通过新颖的半监督特征注意机制解决左右手歧义并整合相交损失来修复手的碰撞,推出了新的大规模数据集 Ev2Hands-S 和真实事件流与真实三维标注的基准数据集 Ev2Hands-R,并在强光条件下对真实数据具有更高的三维重建精度。
Dec, 2023
在该研究中,我们提出了一个统一框架,用于通过单个 RGB 图像并基于神经网络模型来共同估计 3D 手部和物体姿态、模拟它们的交互,以及识别物体和动作类别,整个模型可针对序列帧的输入进行优化。
Apr, 2019
介绍了一种新的捕捉方法和跟踪系统,自动获取 21 个关节点的手部姿势数据,并通过新数据集和卷积神经网络对自我视角手势估计和交叉基准性能进行显著改进。
Apr, 2017