Decaf：面部和手部交互的单眼变形捕捉

Sep, 2023

Decaf：面部和手部交互的单眼变形捕捉

Decaf: Monocular Deformation Capture for Face and Hand Interactions

Soshi Shimada, Vladislav Golyanik, Patrick Pérez, Christian Theobalt

TL;DR从单目 RGB 视频中追踪人手与人脸之间的 3D 交互，并建立了可靠的 3D 手部和面部重构方法。

Abstract

Existing methods for 3d tracking from monocular rgb videos predominantly consider articulated and rigid objects. Modelling dense non-rigid object deformations in this setting remained largely unaddressed so far,

3d tracking non-rigid object deformations monocular rgb videos human hands human faces

发现论文，激发创造

RGB2Hands: 从单目 RGB 视频中实时跟踪三维手部交互

该论文提出了一种使用单个 RGB 相机捕捉人手骨骼姿势和三维表面几何形状的实时方法，并考虑到了人手间的近距离交互情况，该方法通过多任务 CNN 回归多种信息，包括分割、对 3D 手模型的密集匹配、2D 关键点位置，以及新提出的手内相对深度和手间距离图。该方法已在 RGB 两只手追踪和三维重建方面实验验证，并且在量化和定性上优于现有的非针对两只手交互设计的基于 RGB 的方法，甚至与基于深度的实时方法相媲美。

Jun, 2021

手中单目 RGB 视频的三维物体重建

本文提出一种新方法，通过引入 2D 遮挡澄清和物理接触约束，从而处理遮挡下的表面重建问题，该方法在测试集上表现优于现有方法，HO3D 效果提高了 52%，HOD 效果提高了 20%。

Dec, 2023

HOLD：从视频中无类别限制地重建互动的手部和物体的 3D 模型

通过使用单目交互视频，我们提出了 HOLD，它是第一个无需 3D 手物体注释就能从中复原出联合的手和物体的方法，通过使用一个组合的隐式模型，能够从 2D 图像中复原出解缠细分的 3D 手和物体，并进一步结合手物体约束来改善复原质量，在实验室和入迷环境中优于全监督基线方法。

Nov, 2023

使用单目摄像头实时捕捉带有部件相关性的全身动作

该研究提出了一种用于实时全身捕捉的方法，可以从一张彩色图像中估计身体和手部的形状和运动，同时还可以生成带有动态 3D 面部模型的手部和身体。其方法采用了一个新的神经网络架构，可以高效地利用身体和手部之间的相关性。与先前的方法不同，该方法可以在多个数据集上进行联合训练，而无需同时注释所有部分的数据，从而实现了更好的泛化能力。该方法可以更准确地捕获面部表情和颜色，还可以估计统计面部模型的形状，表情，颜色和照明参数。在公共基准测试中，该方法达到了竞争性的准确性，但速度更快，提供了更完整的面部重建。

Dec, 2020

单目事件相机下两只交互手的 3D 姿态估计

提出了首个从单目事件摄像机中跟踪两只快速移动和互动的手的三维跟踪框架，通过新颖的半监督特征注意机制解决左右手歧义并整合相交损失来修复手的碰撞，推出了新的大规模数据集 Ev2Hands-S 和真实事件流与真实三维标注的基准数据集 Ev2Hands-R，并在强光条件下对真实数据具有更高的三维重建精度。

Dec, 2023

野外单目全身捕捉：头、身体和手势的姿态捕捉

本文提出了一种从单目视角输入捕获目标人物 3D 运动的方法，利用 3D 可变形网格模型重建运动，使用 3D 部分方向场对所有身体部位的 3D 方向进行编码，在训练集和性能评估方面表现良好，并在各种挑战性的野外视频上演示了总体运动捕捉的结果。

Dec, 2018

DICE：从单一图像捕捉手脸互动的端到端变形

DICE 是一种基于 Transformer 的全新的、从单张图像中重建具有变形的手 - 脸互动的方法，其特点是通过将本地变形场和全局网格顶点位置的回归分离到两个网络分支，从而增强精确而稳健的手 - 脸网格恢复中的变形和接触估计。我们的实验表明，在基准测试和野外数据方面，DICE 在准确性和物理合理性方面均达到了最先进的性能水平。此外，我们的方法在 Nvidia 4090 GPU 上以交互速率（20fps）运行，而 Decaf 则需要超过 15 秒处理一张图像。

Jun, 2024

从 RGB 视频中实现无限制联合手部和物体重建

本文旨在从单目视频中获取手部和操纵对象的三维重构，提出了一种学习免费的拟合方法以应用于无法获取训练数据且具有不同难度等级的数据集，并量化评估了该方法。

Aug, 2021

通过考虑碰撞感知的因式化优化，实现交互手的单目三维重建

本文提出了一种通过卷积神经网络和分步优化的方式从单个 RGB 图像中重建精确的三维手部网格模型，以促进人机交互和人类行为理解，并在 InterHand2.6M 等大规模数据集上进行了广泛的定量和定性分析。

Nov, 2021

单目 RGB 实时三维手部跟踪的 GAN 生成手部

本研究介绍了一种基于单目 RGB 彩色序列的实时 3D 手部追踪的方法，其结合了卷积神经网络和运动学 3D 手模型，提出了一种基于几何一致的图像到图像翻译网络的新方法来合成训练数据，并在拥有遮挡和不同相机视角的情况下进行了实验，该方法在 RGB 序列跟踪中优于当前最先进的技术。

Dec, 2017