从 RGB 视频中实现无限制联合手部和物体重建

Aug, 2021

从 RGB 视频中实现无限制联合手部和物体重建

Towards unconstrained joint hand-object reconstruction from RGB videos

Yana Hasson, Gül Varol, Ivan Laptev, Cordelia Schmid

TL;DR本文旨在从单目视频中获取手部和操纵对象的三维重构，提出了一种学习免费的拟合方法以应用于无法获取训练数据且具有不同难度等级的数据集，并量化评估了该方法。

Abstract

Our work aims to obtain 3d reconstruction of hands and manipulated objects from monocular videos. Reconstructing hand-object manipulations holds a great potential for robotics and learning from human demonstrations. The supervised learning approach to this problem, however, requires 3D

3d reconstruction hand-object manipulation learning-free fitting approach object detection quantitative evaluation

发现论文，激发创造

从野外视频中学习手持物体重建

本文介绍了一种通过采用从野外视频数据中提取的三维监督来重建手持物体的方法，并使用数据驱动的三维形状先验进行训练，结果表明这种间接的三维监督信号可以在没有直接现实世界三维监督的情况下有效地预测真实世界中的手持物体的三维形状。

May, 2023

学习双手和操纵物的联合重建

基于物理约束的手 - 物体重构模型，利用合成数据集 ObMan 进行模型训练和验证，达到手 - 物交互场景下的稳定手部姿势和可行物体形状重构。

Apr, 2019

手中单目 RGB 视频的三维物体重建

本文提出一种新方法，通过引入 2D 遮挡澄清和物理接触约束，从而处理遮挡下的表面重建问题，该方法在测试集上表现优于现有方法，HO3D 效果提高了 52%，HOD 效果提高了 20%。

Dec, 2023

HOLD：从视频中无类别限制地重建互动的手部和物体的 3D 模型

通过使用单目交互视频，我们提出了 HOLD，它是第一个无需 3D 手物体注释就能从中复原出联合的手和物体的方法，通过使用一个组合的隐式模型，能够从 2D 图像中复原出解缠细分的 3D 手和物体，并进一步结合手物体约束来改善复原质量，在实验室和入迷环境中优于全监督基线方法。

Nov, 2023

通过自监督学习实现视频中一致的 3D 手部重建

提出了一种通过自监督学习从单目视频中重构 3D 手部模型的方法，利用 2D 手部关键点和图像纹理约束进行姿态、形状、纹理、相机视角的估计，达到与全监督方法相似的重构性能，尤其是在视频训练数据下可以显著提高重构精度和一致性。

Jan, 2022

从 RGB-D 输入实时联合跟踪手部操纵物体

本文提出了一种实时的手和物体姿态联合追踪方法，利用一个单独的 RGB-D 相机，通过 3D GMM 算法和创新的正则化策略，同时解决了遮挡、快速运动和手与物体重合的问题，辅以判别式手部部分分类和物体分割，实现了实时追踪。实验结果表明，该方法具有速度、准确性和鲁棒性。

Oct, 2016

手中的物品：手中通用物品的三维重建

使用一张 RGB 图像来重建手持物品的形状，通过利用手的关节运动对物品形状的高可预测性，提出了一种基于关节运动的条件重建方法，并通过一个内隐网络来推断物品的空间形态。

Apr, 2022

基于模型的自监督学习实现的 3D 手部重建

本文提出了一种利用自我监督的三维手部重建网络，通过利用易于提取的二维关键点从输入图像中获取几何线索，并通过一套新颖的损失函数推理出网络输出，以进行精确的手部重建。与使用手动标注数据训练的方法相比，我们的方法减少了对手动标注的依赖，并展示了在更少的监督数据下达到可比较的性能。

Mar, 2021

利用时间上的光度一致性实现稀疏监督的手 - 物体重建

模拟手 - 物互动的姿态估计方法，通过不依赖稠密标注数据的光度一致性方法可同时进行手和物体的三维重建和精确定位，取得了 3D 手 - 物重建基准测试的最优结果，并展示了其在低数据场景下通过相邻帧获取信息以提高姿态估计精度的能力。

Apr, 2020

基于扩散导向的日常手 - 物交互重建剪辑

我们通过对短视频剪辑进行手物体交互的重建任务。以输入视频为基础，我们的方法将 3D 推断视为每个视频的优化，并恢复物体形状的神经 3D 表示，以及时间变化的动作和手关节。尽管输入视频自然地提供了一些多视角线索来指导 3D 推断，但由于遮挡和有限的视角变化，这些线索本身并不足够。为了获得准确的 3D 结果，我们使用通用的数据驱动先验来引导重建过程中的多视角信号。具体来说，我们学习了一个扩散网络，来建模基于手配置和类别标签的对象（几何）渲染的条件分布，并利用它作为先验来指导重建场景的新视角渲染。我们在 6 个物体类别的自我中心视频上对我们的方法进行了实证评估，并观察到相较于先前的单视角和多视角方法有显著的改进。最后，我们展示了我们的系统能够从 YouTube 中重建任意剪辑，展示了第一人称和第三人称的交互。

Sep, 2023