通过提示的接触链实现的统一人 - 场景交互

MMSep, 2023

通过提示的接触链实现的统一人 - 场景交互

Unified Human-Scene Interaction via Prompted Chain-of-Contacts

Zeqi Xiao, Tai Wang, Jingbo Wang, Jinkun Cao, Wenwei Zhang...

TL;DR该研究论文介绍了一个名为 UniHSI 的统一 HSI 框架，该框架通过语言命令支持多种互动的统一控制，旨在解决多样性交互控制和用户友好界面的问题。通过将语言提示翻译成 CoC 形式的任务计划，再将其转化为统一的任务执行，证明了该框架在多样性任务执行和对实际扫描场景的普适性中的有效性。

Abstract

human-scene interaction (HSI) is a vital component of fields like embodied AI and virtual reality. Despite advancements in motion quality and physical plausibility, two pivotal factors, versatile interaction control

human-scene interaction hsi framework unihsi interaction control user-friendly interface

发现论文，激发创造

重新审视人 - 场景交互的空间占用

人 - 场景交互生成是一项具有挑战性且关键的任务，但是受到有限的数据规模的限制。通过将纯运动序列视作与不可见场景占用交互的记录，利用大规模配对的数据集 Motion Occupancy Base（MOB），我们提出了一种新的人 - 占有交互的统一视角。在 MOB 上训练的单个运动控制器可以处理狭窄的场景，并在复杂度有限的一般场景中具有良好的泛化性。我们的方法可以在各种场景中生成逼真且稳定的人 - 场景交互动作。

Dec, 2023

针对视觉环境重建的人类感知物体放置

通过利用人与场景的交互可有效提高单目视频的 3D 场景重建，同时优化人的姿态估计，本论文基于三种 HSI 约束条件，即深度排序、是否穿插目标、接触面，使用优化方法再形成一致、物理合理且功能性 3D 场景布局，并对其在 PROX 和 PiGraphs 数据集上进行定量定性评估。

Mar, 2022

基于基础模型的空间提示学习的通用人物 - 物体交互关系检测器

在开放世界环境下，通过使用视觉语言（VL）基础模型和大型语言模型（LLMs），本研究探索了通用交互识别的方法，并通过进行深度分析和高级关系提取等设计，以实现超越现有方法的开放类别交互识别。

Nov, 2023

可控制的人 - 物互动合成

在这项工作中，我们提出了一种名为 Controllable Human-Object Interaction Synthesis (CHOIS) 的方法，它利用语言描述、初始物体和人体状态以及稀疏的物体路点同时生成物体运动和人体动作，通过引入物体几何损失和设计指导项来提高生成的物体运动和输入物体路点之间的匹配，并确保与地板接触的精确手 - 物体接触和适当接触的真实性。

Dec, 2023

按照意图交互：意图驱动的人 - 物交互检测

该研究探索了基于人体姿态、注视和距离等因素实现社交场景下人和物体之间相互作用识别的方法，并针对误分类问题提出硬负样本采样策略。在两个基准数据集，即 V-COCO 和 HICO-DET 上进行实验并验证了各个组件的有效性。

Aug, 2018

HUMANISE: 3D 场景中基于语言条件的人类运动生成

提出了一个名为 HUMANISE 的大规模、语义丰富的合成 HSI 数据集，并开展了一项名为 Language-conditioned Human Motion Generation 的新一代任务，以及相应的在场景和语言指导下的生成模型，该模型能够在 3D 场景中产生多样化且语义一致的人体动作。

Oct, 2022

自然发生的人机交互的顺序注释：初步洞察

我们提出了一种方法来改善嵌入式对话代理的交互，该方法基于 Conversation Analytic 的序列和多模态分析，使用实例是 Pepper 机器人在图书馆中向用户提供信息和指导，通过创建一个自然发生的交互语料库并提供给社区，提出并学习更好的交互模式。为此，我们提出了一种基于语言和多模态资源在人机交互中的理论基础的注释实践。

Aug, 2023

语义控制下的人 - 场景交互合成

本研究提出了一种名为 COINS 的生成模型，可以在高级语义规格的控制下合成 3D 场景内与虚拟人之间的自然互动，该模型通过编码统一的潜在空间和位置编码来嵌入互动语义，并可以自然地合成多个对象之间的组合互动，实验结果表明该模型可以合成具有语义控制的真实人 - 场景交互。

Jul, 2022

利用场景图进行人 - 物互动检测

提出了一种利用场景图信息进行人 - 物交互（SG2HOI）检测的新方法，该方法通过全局背景信息和关系感知信息传递模块，利用图像中高级和语义的人物和物体关系，通过两种方式将场景图信息融入到 “人 - 物交互” 检测任务中，表现优于两个基准 HOI 数据集上的最新方法。

Aug, 2021

学习人 - 场景交互生成 3D 场景

本文提出了 POSA 模型，用来学习人体与场景的交互，包括接触概率和语义场景标签，并展示了其在 3D 人物自动放置和一致的单目人体姿态估计方面的改进。

Dec, 2020