HOIDiffusion: 生成真实的三维手物体交互数据

Mar, 2024

HOIDiffusion: 生成真实的三维手物体交互数据

HOIDiffusion: Generating Realistic 3D Hand-Object Interaction Data

Mengqi Zhang, Yang Fu, Zheng Ding, Sifei Liu, Zhuowen Tu...

TL;DR利用 HOIDiffusion 方法生成了逼真且多样化的三维手物体交互数据，并将其用于学习 6D 物体位姿估计，提高感知系统的效果。

Abstract

3d hand-object interaction data is scarce due to the hardware constraints in scaling up the data collection process. In this paper, we propose hoidiffusion for generating realistic and diverse →

3d hand-object interaction data hoidiffusion image synthesis controllable synthesis 6d object pose estimation

发现论文，激发创造

DiffH2O: 通过扩散实现从文本描述到手物体交互的合成

通过 DiffH2O 方法，从提供的文本提示和物体几何形状中合成真实的、单手或双手的物体交互，该方法通过手抓阶段和基于文本的交互阶段以及两种不同的引导方案实现了对生成动作的更多控制。

Mar, 2024

InterDiff: 使用物理信息扩散生成三维人物与物体的相互作用

该论文提出了一种预测三维人物 - 物体交互（HOIs）的新方法。通过引入交互扩散和交互校正两个关键步骤，利用扩散模型编码未来人物 - 物体交互的分布，并引入物理感知预测器以纠正去噪后的 HOIs，该方法在多个数据集上的实验证明了其在生成逼真、生动且长期的三维 HOI 预测方面的有效性。

Aug, 2023

HOI-Diff: 使用扩散模型基于文本驱动合成的三维人 - 物交互

我们研究了通过文本指令生成逼真的三维人 - 物互动问题。我们采用模块化设计，将复杂任务分解为简单子任务。我们开发了双分支扩散模型（HOI-DM）来生成人和物体的动作，并通过人和物体动作生成分支之间的交叉注意力通信模块来促进一致的动作。我们还开发了互动预测扩散模型（APDM）来预测通过文本指令驱动的人和物体之间的接触区域。APDM 相对于 HOI-DM 结果是独立的，并且可以纠正后者的潜在错误。此外，它可以随机生成接触点，以多样化生成的动作。最后，我们将估计的接触点合并到分类器引导中，实现准确和密切的人与物之间的接触。通过注释 BEHAVE 数据集的文本描述来训练和评估我们的方法。实验结果表明，我们的方法能够产生具有各种互动和不同类型物体的逼真的人 - 物互动。

Dec, 2023

HandDiffuse: 通过扩散模型生成的双手交互控制器

提出了一个新的数据集 HandDiffuse12.5M，它是一个包含强烈的双手互动时间序列的数据集，用于可控的互动手势生成；通过扩散模型和设计不同控制器的两种运动表示方法，进一步提出了强基准方法 HandDiffuse；实验证明，该方法在运动生成方面优于现有技术，同时可用于其他数据集的数据增强。

Dec, 2023

HACD：单目手持物体重建的手部感知条件扩散

通过使用概率点云去噪扩散模型，我们提出了一种面向单眼手持物体重建的手感知条件扩散方法（HACD），该方法通过手 - 物体交互的语义和几何角度进行建模，通过手顶点先验将部分去噪点云的质心偏移限制在一个范围内，并通过增强局部特征投影的稳定性和精度来提高形状的重构稳定性和精度，实验证明我们的方法在 ObMan、HO3D 和 MOW 数据集上超过了所有现有方法。

Nov, 2023

GeneOH 扩散：通过去噪扩散实现可推广的手 - 物体互动去噪

通过一种名为 GeneOH Diffusion 的创新方法，本研究旨在解决去噪手 - 物交互中的噪声问题，通过一个创新的接触中心表示法和新的领域通用去噪方案来改善交互序列的表达，实现更好的泛化性能和去除交互噪声。

Feb, 2024

HanDiffuser: 使用真实手表现生成文本 - 图像

HanDiffuser 是一种基于扩散的新型架构，通过在生成过程中注入手部嵌入信息，生成具有逼真手部的图像。它包括两个组件：Text-to-Hand-Params 扩散模型用于从输入文本生成 SMPL-Body 和 MANO-Hand 参数，以及 Text-Guided Hand-Params-to-Image 扩散模型用于以先前组件生成的提示和手部参数为条件合成图像。我们在学习和推断期间综合考虑了手部表达的多个方面，包括 3D 形状、关节级手指位置、方向和屈伸状态，以实现稳健学习和可靠性能。我们进行了大量定量和定性实验，并进行了用户研究，证明了我们的方法在生成具有高质量手部的图像方面的有效性。

Mar, 2024

Prompt-Propose-Verify: 一个可靠的基于基础模型的手 - 物互动数据生成框架

通过以文本提示为条件的扩散模型，在人体特征如手部、牙齿等方面生成逼真的图像存在困难。我们假设通过用质量良好的标注数据克服扩散模型的这种缺陷。本文通过使用扩散模型改进手物互动图像生成，采集了一个经过精心注释的手物互动合成数据集，并在其上微调一个稳定的扩散模型。我们通过定性和定量指标（如 CLIPScore、ImageReward、Fedility 和对齐度）评估了图像 - 文本数据集，表现出明显优于当前最先进基准的性能。

Dec, 2023

HandDiff: 图像点云上基于扩散的 3D 手部姿态估计

基于扩散模型，本文提出了 HandDiff，一种基于手型图像点云的迭代去噪准确手势姿态估计模型，旨在通过联合条件和局部细节条件，恢复关键点排列和准确位置，并在四个具有挑战性的手势姿态基准数据集上显著优于现有方法。

Apr, 2024

使用文本图像扩散模型提升人 - 物交互检测

本文提出了一种新的 HOI 检测方案 DiffHOI，通过预先训练的文本 - 图像扩散模型增强了检测器的性能，进一步减少了对交互预测的歧义，并通过 SynHOI 数据集有效缓解现有数据集中的长尾问题，促进了交互表示的学习。

May, 2023