G-HOP: 交互重建和抓取合成的生成式手 - 物体先验模型

CVPRApr, 2024

G-HOP: 交互重建和抓取合成的生成式手 - 物体先验模型

G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis

Yufei Ye, Abhinav Gupta, Kris Kitani, Shubham Tulsiani

TL;DR我们提出了 G-HOP，一种基于去噪扩散的生成先验，用于手 - 物体交互，可以对 3D 物体和人手进行建模，并条件于物体类别。我们通过使用骨骼距离场来表示人手，从而得到与物体（潜在）有向距离场对齐的表示，学习一个可以捕捉这种联合分布的 3D 空间扩散模型。我们展示了这个手 - 物体先验可以作为通用指导，在交互裁剪的重建和人手抓取合成等其他任务中发挥作用。我们相信，我们的模型通过汇集 155 个类别的七个多样化的现实世界交互数据集进行训练，提供了一种联合生成手和物体的初次尝试。我们的实证评估表明，在基于视频的重建和人手抓取合成方面，这个联合先验具有超越当前任务特定基准的优势。

Abstract

We propose g-hop, a denoising diffusion based generative prior for hand

g-hop denoising diffusion generative prior hand-object interactions human grasp synthesis

发现论文，激发创造

InterHandGen: 基于级联逆向扩散的双手交互生成

我们提出了 InterHandGen，这是一个学习两只手相互作用生成先验的新框架。通过从我们的模型进行抽样，可以产生合理且多样化的双手形状，可以与或没有对象进行近距离交互。我们的先验可以整合到任何优化或学习方法中，以减少在不适定设置中的歧义。我们的关键观察是，直接建模多个实例的联合分布由于其组合性质而具有很高的学习复杂度。因此，我们建议将联合分布的建模分解为对事实单独实例分布的无条件建模和条件建模。我们介绍了一个扩散模型，它通过条件丢弃来学习单手分布的无条件和有条件性。在抽样方面，我们结合了防穿透和无分类器指导，以实现合理的生成。此外，我们建立了严格的两只手合成评估协议，在可信度和多样性方面，我们的方法明显优于基准生成模型。我们还证明，我们的扩散先验可以提高从野外单目图像中重建两只手的性能，达到新的最高准确度。

Mar, 2024

从 RGB 图像学习估计手持物体的姿态和形状

该研究提出了一种利用卷积神经网络和图像转化模型实现手持物体姿态和形状估计的方法，并使用合成数据训练模型，获得了在真实场景与合成场景数据上预测物体姿态和形状的良好结果。

Mar, 2019

HOIDiffusion: 生成真实的三维手物体交互数据

利用 HOIDiffusion 方法生成了逼真且多样化的三维手物体交互数据，并将其用于学习 6D 物体位姿估计，提高感知系统的效果。

Mar, 2024

GeneOH 扩散：通过去噪扩散实现可推广的手 - 物体互动去噪

通过一种名为 GeneOH Diffusion 的创新方法，本研究旨在解决去噪手 - 物交互中的噪声问题，通过一个创新的接触中心表示法和新的领域通用去噪方案来改善交互序列的表达，实现更好的泛化性能和去除交互噪声。

Feb, 2024

ContactArt：学习类别级可观测物体和手势姿态的三维交互先验

通过视觉远程操作收集数据和获取姿态估计和接触信息，提出了一种新的数据集和新的方法来学习手和动态物体姿态估计的交互先验知识。通过对数据的学习，可以提高联合手和关节物体姿态估计的性能。

May, 2023

HandyPriors: 基于可微先验的手 - 物体交互的物理一致感知

通过利用可微化的物理和渲染技术，我们提出了 HandyPriors，一个统一且通用的流水线框架，用于在人 - 物互动场景中进行姿态估计，它通过渲染先验和物理先验来实现图像和分割掩码的对齐，减轻帧之间的穿透和相对滑动问题，并提供了两种手部和物体姿态估计的选择，基于优化的姿态估计可以获得更高的精度，而基于滤波的追踪则更快地使用可微的先验作为动力学和观测模型，我们展示了 HandyPriors 在姿态估计任务中获得了可比较或更好的结果，并且可以根据不同 iable 的物理模块预测接触信息，同时我们还展示了我们的方法在机器人手操纵和野外人 - 物姿态估计等感知任务中的泛化能力。

Nov, 2023

注视引导的手物互动合成：基准与方法

我们介绍了第一个注视引导的手 - 物体交互数据集，并提出了一个新颖的注视引导的手 - 物体交互综合任务。我们的数据集 GazeHOI 通过同时建模注视、手和物体的交互，包含 479 个序列，平均持续时间为 19.1 秒，812 个子序列和 33 个具有不同大小的物体。我们提出了一个基于注视引导的手 - 物体交互扩散模型 GHO-Diffusion 的分层框架。我们的广泛实验突出了数据集的独特性及我们方法的有效性。

Mar, 2024

GEARS: 局部几何感知的手 - 物体互动合成

生成逼真的手部动作序列与物体的交互在数字人方面越来越受到关注，之前的工作已经证明了利用基于占据或基于距离的虚拟传感器来提取手物体交互特征的有效性，但是这些方法在物体类别、形状和大小方面的泛化能力有限。为了解决这个挑战，我们引入了一种新颖的以关节为中心的传感器，用于推理潜在交互区域附近的局部物体几何。该传感器查询每个手关节附近的物体表面点。我们通过将点从全局坐标系转换为手部模板坐标系，并使用共享模块处理每个独立关节的传感器特征来减少学习复杂性。然后，我们使用时空转换网络捕捉不同维度中关节之间的相关性。此外，我们设计了简单的启发式规则，以扩充有限的训练序列，增加丰富的静态手抓取样本。这样在训练过程中观察到更广泛的抓取类型，从而增强了我们模型的泛化能力。我们在两个公开数据集 GRAB 和 InterCap 上进行评估，结果表明我们的方法在定量和感知上都优于基线模型。

Apr, 2024

基于扩散导向的日常手 - 物交互重建剪辑

我们通过对短视频剪辑进行手物体交互的重建任务。以输入视频为基础，我们的方法将 3D 推断视为每个视频的优化，并恢复物体形状的神经 3D 表示，以及时间变化的动作和手关节。尽管输入视频自然地提供了一些多视角线索来指导 3D 推断，但由于遮挡和有限的视角变化，这些线索本身并不足够。为了获得准确的 3D 结果，我们使用通用的数据驱动先验来引导重建过程中的多视角信号。具体来说，我们学习了一个扩散网络，来建模基于手配置和类别标签的对象（几何）渲染的条件分布，并利用它作为先验来指导重建场景的新视角渲染。我们在 6 个物体类别的自我中心视频上对我们的方法进行了实证评估，并观察到相较于先前的单视角和多视角方法有显著的改进。最后，我们展示了我们的系统能够从 YouTube 中重建任意剪辑，展示了第一人称和第三人称的交互。

Sep, 2023

HMP：从视频中估计姿态和形状的手部运动先验

通过开发一种特定于手部的生成运动先验，并采用潜在优化方法，在视频中实现了 3D 手部运动估计，提高了性能，并在遮挡情况下产生稳定、时间一致的结果，超过了传统的单帧方法。

Dec, 2023