4DHands: 使用 Transformer 重建 4D 交互手势
从单眼输入中重建 3D 手部,利用基于 Transformer 的 HaMeR 方法,通过大规模数据训练和深度网络容量的扩展,对手部进行精确且鲁棒性增强的分析,并在流行的 3D 手部姿势基准测试中始终优于先前基准线。
Dec, 2023
本文提出了一个分解迭代框架来实现像素对齐的手部重建,同时有效地建模手部之间的空间关系,利用图卷积网络和变压器在 3D 联合特征空间中进行手部内部和交互信息交互,并通过在两个特征空间中进行多个交替增强来实现精确和稳健的相互作用手部重建。 与所有现有的两只手重建方法相比,我们的方法在 InterHand2.6M 数据集上的表现都有了很大的提高。同时,我们的方法展现了对野外图像的强大的泛化能力。
Feb, 2023
该研究提出了 Re:InterHand 数据集,通过使用先进的手部重光网络和准确跟踪的两只手的三维姿势,实现了多样和逼真的图像外观和多样和大规模的地面真实(GT)三维姿势,在现有的三维互动手数据集的基础上进行了对比,并展示了其益处。
Oct, 2023
本论文提出了一种新思路,用于实时跟踪并重构双手的姿态和形状。该方法通过能源最小化框架,将手部姿态和形状模型以及基于深度神经网络的高密度对应预测器嵌入其中,以实现快速运行,实时处理以及自动化调整。同时,文中还提到,该模型得到了场景复杂度不断升级的改进,并达到了同类研究领域的最高水准。
Jun, 2021
本文提出了一种名为 “Keypoint Transformer” 的深度神经网络结构,该结构可以通过二维关键点自注意力机制提取手部三维位姿,实验结果表明该算法在 InterHand2.6M 数据集上性能优于当前所有算法,并可以扩展到双手操纵物体的三维位姿估计,同时作者还提供了超过 75,000 个手部交互的三维场景数据集。
Apr, 2021
提出了首个从单目事件摄像机中跟踪两只快速移动和互动的手的三维跟踪框架,通过新颖的半监督特征注意机制解决左右手歧义并整合相交损失来修复手的碰撞,推出了新的大规模数据集 Ev2Hands-S 和真实事件流与真实三维标注的基准数据集 Ev2Hands-R,并在强光条件下对真实数据具有更高的三维重建精度。
Dec, 2023
该论文提出了一种使用单个 RGB 相机捕捉人手骨骼姿势和三维表面几何形状的实时方法,并考虑到了人手间的近距离交互情况,该方法通过多任务 CNN 回归多种信息,包括分割、对 3D 手模型的密集匹配、2D 关键点位置,以及新提出的手内相对深度和手间距离图。该方法已在 RGB 两只手追踪和三维重建方面实验验证,并且在量化和定性上优于现有的非针对两只手交互设计的基于 RGB 的方法,甚至与基于深度的实时方法相媲美。
Jun, 2021
本文介绍了一种通过 4DHumans 方法从单眼视频中追踪和重建人体动作的技术,通过 transformerized 版本的 HMR 2.0 网络实现人体重建,使用 3D 重建作为输入在 3D 跟踪系统中进行多人追踪并通过深度学习算法实现姿态和动作的识别。
May, 2023
本文提出了一种通过卷积神经网络和分步优化的方式从单个 RGB 图像中重建精确的三维手部网格模型,以促进人机交互和人类行为理解,并在 InterHand2.6M 等大规模数据集上进行了广泛的定量和定性分析。
Nov, 2021
该研究提出了一种基于 Spatial-Temporal Parallel Arm-Hand Motion Transformer (PAHMT) 的方法,来预测单目视频中的手臂和手的动态,并在不同的挑战性场景下表现出鲁棒性。
Mar, 2022