Mar, 2024

THOR:通过关系干预的人 - 物交互传播的文本

TL;DR本文提出了一种新的方法来处理从文本描述中生成动态人 - 物互动(Text2HOI)的挑战性任务。我们的任务涉及处理人体运动的变化、物体形状的多样性和物体运动的语义模糊性。为了解决这个问题,我们提出了一种新颖的基于文本引导的人 - 物互动扩散模型 THOR,它配备了一种关系干预机制。在每个扩散步骤中,我们引导人体和物体运动,并通过人 - 物关系对物体运动进行干预,从而增强人体和物体之间的时空关系,并利用人体为合成一致的运动提供额外的指导信息。为了实现更合理和真实的结果,在不同级别的运动粒度上引入了互动损失。此外,我们构建了一个将文本描述与目前可公开获得的最大的 3D HOI 数据集无缝集成的 Text-BEHAVE 数据集。定量和定性实验证明了我们提出模型的有效性。