通过提示的接触链实现的统一人 - 场景交互
人 - 场景交互生成是一项具有挑战性且关键的任务,但是受到有限的数据规模的限制。通过将纯运动序列视作与不可见场景占用交互的记录,利用大规模配对的数据集 Motion Occupancy Base(MOB),我们提出了一种新的人 - 占有交互的统一视角。在 MOB 上训练的单个运动控制器可以处理狭窄的场景,并在复杂度有限的一般场景中具有良好的泛化性。我们的方法可以在各种场景中生成逼真且稳定的人 - 场景交互动作。
Dec, 2023
通过利用人与场景的交互可有效提高单目视频的 3D 场景重建,同时优化人的姿态估计,本论文基于三种 HSI 约束条件,即深度排序、是否穿插目标、接触面,使用优化方法再形成一致、物理合理且功能性 3D 场景布局,并对其在 PROX 和 PiGraphs 数据集上进行定量定性评估。
Mar, 2022
在开放世界环境下,通过使用视觉语言(VL)基础模型和大型语言模型(LLMs),本研究探索了通用交互识别的方法,并通过进行深度分析和高级关系提取等设计,以实现超越现有方法的开放类别交互识别。
Nov, 2023
在这项工作中,我们提出了一种名为 Controllable Human-Object Interaction Synthesis (CHOIS) 的方法,它利用语言描述、初始物体和人体状态以及稀疏的物体路点同时生成物体运动和人体动作,通过引入物体几何损失和设计指导项来提高生成的物体运动和输入物体路点之间的匹配,并确保与地板接触的精确手 - 物体接触和适当接触的真实性。
Dec, 2023
该研究探索了基于人体姿态、注视和距离等因素实现社交场景下人和物体之间相互作用识别的方法,并针对误分类问题提出硬负样本采样策略。在两个基准数据集,即 V-COCO 和 HICO-DET 上进行实验并验证了各个组件的有效性。
Aug, 2018
提出了一个名为 HUMANISE 的大规模、语义丰富的合成 HSI 数据集,并开展了一项名为 Language-conditioned Human Motion Generation 的新一代任务,以及相应的在场景和语言指导下的生成模型,该模型能够在 3D 场景中产生多样化且语义一致的人体动作。
Oct, 2022
我们提出了一种方法来改善嵌入式对话代理的交互,该方法基于 Conversation Analytic 的序列和多模态分析,使用实例是 Pepper 机器人在图书馆中向用户提供信息和指导,通过创建一个自然发生的交互语料库并提供给社区,提出并学习更好的交互模式。为此,我们提出了一种基于语言和多模态资源在人机交互中的理论基础的注释实践。
Aug, 2023
本研究提出了一种名为 COINS 的生成模型,可以在高级语义规格的控制下合成 3D 场景内与虚拟人之间的自然互动,该模型通过编码统一的潜在空间和位置编码来嵌入互动语义,并可以自然地合成多个对象之间的组合互动,实验结果表明该模型可以合成具有语义控制的真实人 - 场景交互。
Jul, 2022
提出了一种利用场景图信息进行人 - 物交互(SG2HOI)检测的新方法,该方法通过全局背景信息和关系感知信息传递模块,利用图像中高级和语义的人物和物体关系,通过两种方式将场景图信息融入到 “人 - 物交互” 检测任务中,表现优于两个基准 HOI 数据集上的最新方法。
Aug, 2021
本文提出了 POSA 模型,用来学习人体与场景的交互,包括接触概率和语义场景标签,并展示了其在 3D 人物自动放置和一致的单目人体姿态估计方面的改进。
Dec, 2020