HOI-Diff: 使用扩散模型基于文本驱动合成的三维人 - 物交互

Dec, 2023

HOI-Diff: 使用扩散模型基于文本驱动合成的三维人 - 物交互

HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using Diffusion Models

Xiaogang Peng, Yiming Xie, Zizhao Wu, Varun Jampani, Deqing Sun...

TL;DR我们研究了通过文本指令生成逼真的三维人 - 物互动问题。我们采用模块化设计，将复杂任务分解为简单子任务。我们开发了双分支扩散模型（HOI-DM）来生成人和物体的动作，并通过人和物体动作生成分支之间的交叉注意力通信模块来促进一致的动作。我们还开发了互动预测扩散模型（APDM）来预测通过文本指令驱动的人和物体之间的接触区域。APDM 相对于 HOI-DM 结果是独立的，并且可以纠正后者的潜在错误。此外，它可以随机生成接触点，以多样化生成的动作。最后，我们将估计的接触点合并到分类器引导中，实现准确和密切的人与物之间的接触。通过注释 BEHAVE 数据集的文本描述来训练和评估我们的方法。实验结果表明，我们的方法能够产生具有各种互动和不同类型物体的逼真的人 - 物互动。

Abstract

We address the problem of generating realistic 3d human-object interactions (HOIs) driven by textual prompts. Instead of a single model, our key insight is to take a →

3d human-object interactions textual prompts modular design motion generation contacting points

发现论文，激发创造

InterDiff: 使用物理信息扩散生成三维人物与物体的相互作用

该论文提出了一种预测三维人物 - 物体交互（HOIs）的新方法。通过引入交互扩散和交互校正两个关键步骤，利用扩散模型编码未来人物 - 物体交互的分布，并引入物理感知预测器以纠正去噪后的 HOIs，该方法在多个数据集上的实验证明了其在生成逼真、生动且长期的三维 HOI 预测方面的有效性。

Aug, 2023

CG-HOI: 接触引导的三维人体物体交互生成

我们提出了 CG-HOI，这是第一个解决从文本中生成动态 3D 人物 - 物体交互（HOIs）任务的方法。我们通过在训练和推断过程中显式地建模人体表面与物体几何之间的接触来引导人体和物体的运动，从而生成更真实、物理上可行的交互序列。

Nov, 2023

使用文本图像扩散模型提升人 - 物交互检测

本文提出了一种新的 HOI 检测方案 DiffHOI，通过预先训练的文本 - 图像扩散模型增强了检测器的性能，进一步减少了对交互预测的歧义，并通过 SynHOI 数据集有效缓解现有数据集中的长尾问题，促进了交互表示的学习。

May, 2023

文本图像扩散模型中的交互控制

在这项工作中，我们研究了使用人物 - 物体交互信息对文本到图像扩散模型进行条件控制的问题，并提出了一种可插拔的交互控制模型，通过交互嵌入来学习人物 - 物体交互信息，并通过条件自注意层更好地对现有的文本到图像扩散模型进行调节，从而在 HOI 检测得分、FID 和 KID 方面明显优于现有的基准模型。

Dec, 2023

InterDreamer: 零激活文本向三维动态人物 - 物体交互

通过使用预训练的大型模型和文本到动作模型，本文介绍了一种名为 InterDreamer 的框架，能够以零样本的方式生成与文本指令无缝对齐的逼真和连贯的 3D 人物 - 物体交互序列。

Mar, 2024

DiffH2O: 通过扩散实现从文本描述到手物体交互的合成

通过 DiffH2O 方法，从提供的文本提示和物体几何形状中合成真实的、单手或双手的物体交互，该方法通过手抓阶段和基于文本的交互阶段以及两种不同的引导方案实现了对生成动作的更多控制。

Mar, 2024

HOIDiffusion: 生成真实的三维手物体交互数据

利用 HOIDiffusion 方法生成了逼真且多样化的三维手物体交互数据，并将其用于学习 6D 物体位姿估计，提高感知系统的效果。

Mar, 2024

THOR：通过关系干预的人 - 物交互传播的文本

本文提出了一种新的方法来处理从文本描述中生成动态人 - 物互动（Text2HOI）的挑战性任务。我们的任务涉及处理人体运动的变化、物体形状的多样性和物体运动的语义模糊性。为了解决这个问题，我们提出了一种新颖的基于文本引导的人 - 物互动扩散模型 THOR，它配备了一种关系干预机制。在每个扩散步骤中，我们引导人体和物体运动，并通过人 - 物关系对物体运动进行干预，从而增强人体和物体之间的时空关系，并利用人体为合成一致的运动提供额外的指导信息。为了实现更合理和真实的结果，在不同级别的运动粒度上引入了互动损失。此外，我们构建了一个将文本描述与目前可公开获得的最大的 3D HOI 数据集无缝集成的 Text-BEHAVE 数据集。定量和定性实验证明了我们提出模型的有效性。

Mar, 2024

Text2HOI: 文本引导的手 - 物互动三维运动生成

该研究论文介绍了一项基于文本指导的生成 3D 手物交互序列的工作，并提出了两个子任务：手物接触生成和手物运动生成。通过使用变分自编码器和 Transformer 扩散模型，在文本提示下生成物理上合理的手物交互动作，并通过一种手优化模块改善了接触的时序稳定性和穿透问题。对比基准方法，该方法生成的交互更加真实和多样，并且适用于未知物体。

Mar, 2024

文本驱动的三维人物物体交互生成

本研究利用 InterFusion 框架，通过从文本中提取到的人体姿势估计作为几何先验，实现了具有复杂空间关系的多个概念的高质量三维人物 - 物体交互场景的生成，并且结果表明 InterFusion 在三维 HOI 生成方面显著优于现有的最先进方法。

Mar, 2024