A2J-Transformer: 基于 Anchor-to-Joint Transformer 网络的单 RGB 图像 3D 互动手部姿态估计

CVPRApr, 2023

A2J-Transformer: 基于 Anchor-to-Joint Transformer 网络的单 RGB 图像 3D 互动手部姿态估计

A2J-Transformer: Anchor-to-Joint Transformer Network for 3D Interacting Hand Pose Estimation from a Single RGB Image

Changlong Jiang, Yang Xiao, Cunlin Wu, Mingyang Zhang, Jinghong Zheng...

TL;DR利用 Transformer 的 non-local encoding-decoding 框架扩展 A2J，将其应用于 RGB 领域下的二手交互状态下的 3D 手势姿势估计，提出 A2J-Transformer 模型来提供局部和全局的姿态线索，并实现了最先进的免模型性能。

Abstract

3D interacting hand pose estimation from a single RGB image is a challenging task, due to serious self-occlusion and inter-occlusion towards hands, confusing similar appearance patterns between 2 hands, ill-posed joint position mapping from 2D to 3D, etc.. To address these, we propose to extend A2J-the state-of-the-art depth-based 3D single hand pose estimat

3d hand pose estimation a2j-transformer interacting hands self-attention global articulated clues

发现论文，激发创造

A2J：基于锚点到关节回归网络的从单个深度图像估算三维关节姿势

提出了一种名为 A2J 的锚点到关节回归网络，使用 ResNet-50 作为主干网络进行全局 - 局部的空间上下文信息捕捉，以预测手和身体的 3D 关节位置，并且在多个实验数据集上得出其优越性和高速性。

Aug, 2019

Keypoint Transformer：用于精确 3D 姿态估计中解决具有挑战性的手部和物体交互中的关键点标识问题

本文提出了一种名为 “Keypoint Transformer” 的深度神经网络结构，该结构可以通过二维关键点自注意力机制提取手部三维位姿，实验结果表明该算法在 InterHand2.6M 数据集上性能优于当前所有算法，并可以扩展到双手操纵物体的三维位姿估计，同时作者还提供了超过 75,000 个手部交互的三维场景数据集。

Apr, 2021

一张 RGB 图像交互式双手重建的解耦迭代细化框架

本文提出了一个分解迭代框架来实现像素对齐的手部重建，同时有效地建模手部之间的空间关系，利用图卷积网络和变压器在 3D 联合特征空间中进行手部内部和交互信息交互，并通过在两个特征空间中进行多个交替增强来实现精确和稳健的相互作用手部重建。与所有现有的两只手重建方法相比，我们的方法在 InterHand2.6M 数据集上的表现都有了很大的提高。同时，我们的方法展现了对野外图像的强大的泛化能力。

Feb, 2023

使用单目 RGB 进行双手全局 3D 姿态估计

本文提出了一种基于卷积神经网络的多阶段流水线方法，仅通过单眼红绿蓝彩色图像在众多的干扰因素下，准确分割和定位手部区域并估计 2D 和 3D 的关节点位置；采用新颖的投影算法计算相对相机坐标系的全局关节点位置，为此引入大规模合成 3D 手部姿态数据集。在 RGB-only 信息下，本文超越了以往的 3D 典型手部姿态估计基准数据集；此外，本文提供了 RGB-only 输入下首个实现双手的准确全局 3D 手部跟踪，并进行了广泛的定量和定性评估。

Jun, 2020

基于交互时间的半监督 3D 手物姿态估计

使用半监督学习的统一框架，通过显式的上下文推理和变换器之间的手和物体表示，估计来自单个图像的 3D 手和物体姿势，并利用大规模手 - 对象视频中的时空一致性生成伪标签作为约束条件去超越单个图像中有限的 3D 注释。

Jun, 2021

一种基于单一 RGB 图像的立体交互手姿态估计数据集和基准线

该篇论文针对手 - 手互动的行为研究提出了 InterNet 网络和 InterHand2.6M 数据库，用于从单个 RGB 图像中实现三维互动手势姿态估计，获得更准确的结果。

Aug, 2020

针对自我视角 RGB 视频的三维手部姿态估计和动作识别的分层时间变换器

通过一个基于 transformer 的框架来利用时间信息进行动态手势和行为的鲁棒性估计，分别实现短期的手势估计和长期的行为识别，取得了较好的结果。

Sep, 2022

4DHands: 使用 Transformer 重建 4D 交互手势

通过 4DHands 方法，从单目输入中恢复互动手部网格及其相对运动，处理了自由手图像输入和两只手的位置关系的限制，并通过新颖的分词和特征融合策略提出了一种基于 Transformer 的架构。

May, 2024

RGB2Hands: 从单目 RGB 视频中实时跟踪三维手部交互

该论文提出了一种使用单个 RGB 相机捕捉人手骨骼姿势和三维表面几何形状的实时方法，并考虑到了人手间的近距离交互情况，该方法通过多任务 CNN 回归多种信息，包括分割、对 3D 手模型的密集匹配、2D 关键点位置，以及新提出的手内相对深度和手间距离图。该方法已在 RGB 两只手追踪和三维重建方面实验验证，并且在量化和定性上优于现有的非针对两只手交互设计的基于 RGB 的方法，甚至与基于深度的实时方法相媲美。

Jun, 2021

通过手部去遮挡和去除实现的 3D 交互手势姿态估计

该研究提出了一种新的处理双手交互姿态估计的方法，包括手部去遮挡和干扰物去除，建立了大规模合成数据集以促进研究发展，并显示该方法显著优于先前的同类研究。

Jul, 2022