文本驱动的三维人物物体交互生成
通过使用预训练的大型模型和文本到动作模型,本文介绍了一种名为 InterDreamer 的框架,能够以零样本的方式生成与文本指令无缝对齐的逼真和连贯的 3D 人物 - 物体交互序列。
Mar, 2024
我们研究了通过文本指令生成逼真的三维人 - 物互动问题。我们采用模块化设计,将复杂任务分解为简单子任务。我们开发了双分支扩散模型(HOI-DM)来生成人和物体的动作,并通过人和物体动作生成分支之间的交叉注意力通信模块来促进一致的动作。我们还开发了互动预测扩散模型(APDM)来预测通过文本指令驱动的人和物体之间的接触区域。APDM 相对于 HOI-DM 结果是独立的,并且可以纠正后者的潜在错误。此外,它可以随机生成接触点,以多样化生成的动作。最后,我们将估计的接触点合并到分类器引导中,实现准确和密切的人与物之间的接触。通过注释 BEHAVE 数据集的文本描述来训练和评估我们的方法。实验结果表明,我们的方法能够产生具有各种互动和不同类型物体的逼真的人 - 物互动。
Dec, 2023
我们提出了 CG-HOI,这是第一个解决从文本中生成动态 3D 人物 - 物体交互(HOIs)任务的方法。我们通过在训练和推断过程中显式地建模人体表面与物体几何之间的接触来引导人体和物体的运动,从而生成更真实、物理上可行的交互序列。
Nov, 2023
该研究论文介绍了一项基于文本指导的生成 3D 手物交互序列的工作,并提出了两个子任务:手物接触生成和手物运动生成。通过使用变分自编码器和 Transformer 扩散模型,在文本提示下生成物理上合理的手物交互动作,并通过一种手优化模块改善了接触的时序稳定性和穿透问题。对比基准方法,该方法生成的交互更加真实和多样,并且适用于未知物体。
Mar, 2024
该论文提出了一种预测三维人物 - 物体交互(HOIs)的新方法。通过引入交互扩散和交互校正两个关键步骤,利用扩散模型编码未来人物 - 物体交互的分布,并引入物理感知预测器以纠正去噪后的 HOIs,该方法在多个数据集上的实验证明了其在生成逼真、生动且长期的三维 HOI 预测方面的有效性。
Aug, 2023
通过将任务分解为两个可管理的子问题:目标对象的语言准确性和以目标对象为中心的运动生成,本文提出了一种新的方法来生成给定人 - 场景交互文本描述的 3D 室内场景中的人体动作,实验表明我们的方法在运动质量方面优于基线并验证了我们的设计选择。
May, 2024
本论文提出了一种详细的 2D-3D 联合表示学习方法,能够使计算机更好地理解人物和物体之间的交互行为,效果在大规模的 HOI 基准和 Ambiguous-HOI 数据集上表现良好。
Apr, 2020
该研究探索了基于人体姿态、注视和距离等因素实现社交场景下人和物体之间相互作用识别的方法,并针对误分类问题提出硬负样本采样策略。在两个基准数据集,即 V-COCO 和 HICO-DET 上进行实验并验证了各个组件的有效性。
Aug, 2018
通过 DiffH2O 方法,从提供的文本提示和物体几何形状中合成真实的、单手或双手的物体交互,该方法通过手抓阶段和基于文本的交互阶段以及两种不同的引导方案实现了对生成动作的更多控制。
Mar, 2024
本研究提出了一种快速学习框架实现同时进行 HOI 识别和姿态估计的任务。通过姿态感知 HOI 识别模块和 HOI 指导姿态估计模块之间的信息传递形成了一个闭环,使两个模块可以迭代地利用互补信息,并可以进行端到端的训练。该方法在两个公共基准数据集(V-COCO 和 HICO-DET)上实现了最先进的性能。
Mar, 2019