4DHands: 使用 Transformer 重建 4D 交互手势

May, 2024

4DHands: 使用 Transformer 重建 4D 交互手势

4DHands: Reconstructing Interactive Hands in 4D with Transformers

Dixuan Lin, Yuxiang Zhang, Mengcheng Li, Yebin Liu, Wei Jing...

TL;DR通过 4DHands 方法，从单目输入中恢复互动手部网格及其相对运动，处理了自由手图像输入和两只手的位置关系的限制，并通过新颖的分词和特征融合策略提出了一种基于 Transformer 的架构。

Abstract

In this paper, we introduce 4dhands, a robust approach to recovering interactive hand meshes and their relative movement from monocular inputs

4dhands interactive hand meshes monocular inputs tokenization feature fusion

发现论文，激发创造

利用 Transformers 進行三維手部重建

从单眼输入中重建 3D 手部，利用基于 Transformer 的 HaMeR 方法，通过大规模数据训练和深度网络容量的扩展，对手部进行精确且鲁棒性增强的分析，并在流行的 3D 手部姿势基准测试中始终优于先前基准线。

Dec, 2023

一张 RGB 图像交互式双手重建的解耦迭代细化框架

本文提出了一个分解迭代框架来实现像素对齐的手部重建，同时有效地建模手部之间的空间关系，利用图卷积网络和变压器在 3D 联合特征空间中进行手部内部和交互信息交互，并通过在两个特征空间中进行多个交替增强来实现精确和稳健的相互作用手部重建。与所有现有的两只手重建方法相比，我们的方法在 InterHand2.6M 数据集上的表现都有了很大的提高。同时，我们的方法展现了对野外图像的强大的泛化能力。

Feb, 2023

一个重新照明的三维交互手部数据集

该研究提出了 Re:InterHand 数据集，通过使用先进的手部重光网络和准确跟踪的两只手的三维姿势，实现了多样和逼真的图像外观和多样和大规模的地面真实（GT）三维姿势，在现有的三维互动手数据集的基础上进行了对比，并展示了其益处。

Oct, 2023

使用单个深度相机实时重建相互作用的两只手的姿态和形状

本论文提出了一种新思路，用于实时跟踪并重构双手的姿态和形状。该方法通过能源最小化框架，将手部姿态和形状模型以及基于深度神经网络的高密度对应预测器嵌入其中，以实现快速运行，实时处理以及自动化调整。同时，文中还提到，该模型得到了场景复杂度不断升级的改进，并达到了同类研究领域的最高水准。

Jun, 2021

Keypoint Transformer：用于精确 3D 姿态估计中解决具有挑战性的手部和物体交互中的关键点标识问题

本文提出了一种名为 “Keypoint Transformer” 的深度神经网络结构，该结构可以通过二维关键点自注意力机制提取手部三维位姿，实验结果表明该算法在 InterHand2.6M 数据集上性能优于当前所有算法，并可以扩展到双手操纵物体的三维位姿估计，同时作者还提供了超过 75,000 个手部交互的三维场景数据集。

Apr, 2021

单目事件相机下两只交互手的 3D 姿态估计

提出了首个从单目事件摄像机中跟踪两只快速移动和互动的手的三维跟踪框架，通过新颖的半监督特征注意机制解决左右手歧义并整合相交损失来修复手的碰撞，推出了新的大规模数据集 Ev2Hands-S 和真实事件流与真实三维标注的基准数据集 Ev2Hands-R，并在强光条件下对真实数据具有更高的三维重建精度。

Dec, 2023

RGB2Hands: 从单目 RGB 视频中实时跟踪三维手部交互

该论文提出了一种使用单个 RGB 相机捕捉人手骨骼姿势和三维表面几何形状的实时方法，并考虑到了人手间的近距离交互情况，该方法通过多任务 CNN 回归多种信息，包括分割、对 3D 手模型的密集匹配、2D 关键点位置，以及新提出的手内相对深度和手间距离图。该方法已在 RGB 两只手追踪和三维重建方面实验验证，并且在量化和定性上优于现有的非针对两只手交互设计的基于 RGB 的方法，甚至与基于深度的实时方法相媲美。

Jun, 2021

在 4D 中重建和跟踪人类的 Transformers 技术

本文介绍了一种通过 4DHumans 方法从单眼视频中追踪和重建人体动作的技术，通过 transformerized 版本的 HMR 2.0 网络实现人体重建，使用 3D 重建作为输入在 3D 跟踪系统中进行多人追踪并通过深度学习算法实现姿态和动作的识别。

May, 2023

通过考虑碰撞感知的因式化优化，实现交互手的单目三维重建

本文提出了一种通过卷积神经网络和分步优化的方式从单个 RGB 图像中重建精确的三维手部网格模型，以促进人机交互和人类行为理解，并在 InterHand2.6M 等大规模数据集上进行了广泛的定量和定性分析。

Nov, 2021

空间时间并行变压器用于手臂动态估计

该研究提出了一种基于 Spatial-Temporal Parallel Arm-Hand Motion Transformer (PAHMT) 的方法，来预测单目视频中的手臂和手的动态，并在不同的挑战性场景下表现出鲁棒性。

Mar, 2022