文本驱动的三维人物物体交互生成

Mar, 2024

文本驱动的三维人物物体交互生成

InterFusion: Text-Driven Generation of 3D Human-Object Interaction

Sisi Dai, Wenhao Li, Haowen Sun, Haibin Huang, Chongyang Ma...

TL;DR本研究利用 InterFusion 框架，通过从文本中提取到的人体姿势估计作为几何先验，实现了具有复杂空间关系的多个概念的高质量三维人物 - 物体交互场景的生成，并且结果表明 InterFusion 在三维 HOI 生成方面显著优于现有的最先进方法。

Abstract

In this study, we tackle the complex task of generating 3D human-object interactions (HOI) from textual descriptions in a zero-shot text-to-3d manner. We identify and address two key challenges: the unsatisfactory outcomes of direct →

3d human-object interactions text-to-3d interfusion hoi generation human pose estimations

发现论文，激发创造

InterDreamer: 零激活文本向三维动态人物 - 物体交互

通过使用预训练的大型模型和文本到动作模型，本文介绍了一种名为 InterDreamer 的框架，能够以零样本的方式生成与文本指令无缝对齐的逼真和连贯的 3D 人物 - 物体交互序列。

Mar, 2024

HOI-Diff: 使用扩散模型基于文本驱动合成的三维人 - 物交互

我们研究了通过文本指令生成逼真的三维人 - 物互动问题。我们采用模块化设计，将复杂任务分解为简单子任务。我们开发了双分支扩散模型（HOI-DM）来生成人和物体的动作，并通过人和物体动作生成分支之间的交叉注意力通信模块来促进一致的动作。我们还开发了互动预测扩散模型（APDM）来预测通过文本指令驱动的人和物体之间的接触区域。APDM 相对于 HOI-DM 结果是独立的，并且可以纠正后者的潜在错误。此外，它可以随机生成接触点，以多样化生成的动作。最后，我们将估计的接触点合并到分类器引导中，实现准确和密切的人与物之间的接触。通过注释 BEHAVE 数据集的文本描述来训练和评估我们的方法。实验结果表明，我们的方法能够产生具有各种互动和不同类型物体的逼真的人 - 物互动。

Dec, 2023

CG-HOI: 接触引导的三维人体物体交互生成

我们提出了 CG-HOI，这是第一个解决从文本中生成动态 3D 人物 - 物体交互（HOIs）任务的方法。我们通过在训练和推断过程中显式地建模人体表面与物体几何之间的接触来引导人体和物体的运动，从而生成更真实、物理上可行的交互序列。

Nov, 2023

Text2HOI: 文本引导的手 - 物互动三维运动生成

该研究论文介绍了一项基于文本指导的生成 3D 手物交互序列的工作，并提出了两个子任务：手物接触生成和手物运动生成。通过使用变分自编码器和 Transformer 扩散模型，在文本提示下生成物理上合理的手物交互动作，并通过一种手优化模块改善了接触的时序稳定性和穿透问题。对比基准方法，该方法生成的交互更加真实和多样，并且适用于未知物体。

Mar, 2024

InterDiff: 使用物理信息扩散生成三维人物与物体的相互作用

该论文提出了一种预测三维人物 - 物体交互（HOIs）的新方法。通过引入交互扩散和交互校正两个关键步骤，利用扩散模型编码未来人物 - 物体交互的分布，并引入物理感知预测器以纠正去噪后的 HOIs，该方法在多个数据集上的实验证明了其在生成逼真、生动且长期的三维 HOI 预测方面的有效性。

Aug, 2023

从文本描述中生成三维场景的人类动作

通过将任务分解为两个可管理的子问题：目标对象的语言准确性和以目标对象为中心的运动生成，本文提出了一种新的方法来生成给定人 - 场景交互文本描述的 3D 室内场景中的人体动作，实验表明我们的方法在运动质量方面优于基线并验证了我们的设计选择。

May, 2024

人体和物体交互的详细 2D-3D 联合表示

本论文提出了一种详细的 2D-3D 联合表示学习方法，能够使计算机更好地理解人物和物体之间的交互行为，效果在大规模的 HOI 基准和 Ambiguous-HOI 数据集上表现良好。

Apr, 2020

按照意图交互：意图驱动的人 - 物交互检测

该研究探索了基于人体姿态、注视和距离等因素实现社交场景下人和物体之间相互作用识别的方法，并针对误分类问题提出硬负样本采样策略。在两个基准数据集，即 V-COCO 和 HICO-DET 上进行实验并验证了各个组件的有效性。

Aug, 2018

DiffH2O: 通过扩散实现从文本描述到手物体交互的合成

通过 DiffH2O 方法，从提供的文本提示和物体几何形状中合成真实的、单手或双手的物体交互，该方法通过手抓阶段和基于文本的交互阶段以及两种不同的引导方案实现了对生成动作的更多控制。

Mar, 2024

人 - 物交互识别和人体姿态估计的 Turbo 学习框架

本研究提出了一种快速学习框架实现同时进行 HOI 识别和姿态估计的任务。通过姿态感知 HOI 识别模块和 HOI 指导姿态估计模块之间的信息传递形成了一个闭环，使两个模块可以迭代地利用互补信息，并可以进行端到端的训练。该方法在两个公共基准数据集（V-COCO 和 HICO-DET）上实现了最先进的性能。

Mar, 2019