用于 3D 交互手部网格恢复的提取和调整网络
通过 4DHands 方法,从单目输入中恢复互动手部网格及其相对运动,处理了自由手图像输入和两只手的位置关系的限制,并通过新颖的分词和特征融合策略提出了一种基于 Transformer 的架构。
May, 2024
利用 Transformer 的 non-local encoding-decoding 框架扩展 A2J,将其应用于 RGB 领域下的二手交互状态下的 3D 手势姿势估计,提出 A2J-Transformer 模型来提供局部和全局的姿态线索,并实现了最先进的免模型性能。
Apr, 2023
从单眼输入中重建 3D 手部,利用基于 Transformer 的 HaMeR 方法,通过大规模数据训练和深度网络容量的扩展,对手部进行精确且鲁棒性增强的分析,并在流行的 3D 手部姿势基准测试中始终优于先前基准线。
Dec, 2023
本文提出了一种利用素材学习获取双手的网络来实现手的重建,其中考虑了两种不同的手表示法。通过引入 Mesh-Mano interaction blocks(MMIBs)以及 mesh alignment refinement module,我们的方法在 InterHand2.6M 基准上的表现优于现有的手重建方法,生成效果明显。
Mar, 2023
提出了一种新的 3D 手部网格估计网络 HandOccNet,该网络可充分利用遮挡区域的信息来增强图像特征,设计了两个基于 Transformer 的模块来将手部信息注入遮挡区域,并使用自我注意机制优化输出,从而在具有挑战性的手物体遮挡的 3D 手部网格基准测试中取得了最先进的表现。
Mar, 2022
本文提出了一种新的综合多模式 Holistic Interaction Transformer 网络 (HIT),其利用了大多数人类行动必不可少的手部和姿态信息。该网络是一个包含 RGB 流和姿态流的全面双模式框架,分别建模了人、物和手部互动,并使用 Attentive Fusion 机制将每种模式的特征相结合,最终通过从时间背景中提取线索来更好地分类发生的行动。该方法在 J-HMDB、UCF101-24 和 MultiSports 数据集上显着优于先前的方法,在 AVA 上也取得了竞争性结果。
Oct, 2022
最近,3D 手部重建在人机合作中越来越受关注,特别是在手物互动场景中。然而,由于交互造成的严重手部遮挡问题,仍然存在巨大挑战,包括准确性和物理可信度的平衡、模型参数的高度非线性映射以及遮挡特征的增强。为了克服这些问题,我们提出了一种结合基于模型和无模型方法的 3D 手部重建网络,以在手物互动场景中平衡准确性和物理可信度。首先,我们提出了一种从 2D 关节点直接回归 MANO 姿势参数的新型模块,避免了从抽象图像特征进行高度非线性映射的过程,也不再依赖于准确的 3D 关节点。此外,我们进一步提出了一个由 MANO 引导的顶点 - 关节点相互图注意模型,共同精细化手部网格和关节点,模拟了顶点 - 顶点和关节点 - 关节点的依赖关系,并分别捕捉了顶点 - 关节点的相关性,以聚合图内节点和图间节点特征。实验结果表明,我们的方法在最新的基准数据集 HO3DV2 和 Dex-YCB 上取得了竞争性能,并且优于所有仅基于模型和无模型方法。
Mar, 2024
本文提出了一个分解迭代框架来实现像素对齐的手部重建,同时有效地建模手部之间的空间关系,利用图卷积网络和变压器在 3D 联合特征空间中进行手部内部和交互信息交互,并通过在两个特征空间中进行多个交替增强来实现精确和稳健的相互作用手部重建。 与所有现有的两只手重建方法相比,我们的方法在 InterHand2.6M 数据集上的表现都有了很大的提高。同时,我们的方法展现了对野外图像的强大的泛化能力。
Feb, 2023
本文提出一种名为自适应图模型网络(AGMN)的新架构,用于从单个 RGB 图像估计 2D 手部姿势,该架构包含两个深度卷积神经网络分支,用于计算一元和双元潜力函数,随后是图形模型推断模块,用于集成一元和双元潜力。与现有的将 DCNN 与图形模型结合的体系结构不同,我们的 AGMN 是新颖的,因为其图形模型的参数是基于并完全适应于个别输入图像的。实验证明,我们的方法在两个公共数据集上比 2D 手关键点估计中使用的最先进方法优越了不少。
Sep, 2019
我们提出了一个具有自适应多模态融合的进化网络架构搜索框架(AMF-ENAS),通过自动解码,能够自动构建具有不同架构的多模态网络,该算法在多模态手势识别(MHGR)方面取得了最先进的性能。
Mar, 2024