本文提出一种基于 Transformer 的模型以实现机器的多物体理解,物体控制及 3D 场景探索,主要方法为预测物体的 3D 位置,物理属性及可访问性,通过自己收集和验证数据集来证明该模型对网络视频,比如第一人称视角视频和室内图像产生较好泛化能力。
May, 2023
我们提出了一种教导机器以自监督方式理解并建模多种 3D 人物 - 物体相互作用的基础空间常识的方法。我们利用生成模型生成高质量的 2D 图像,并展示了这些合成图像足以学习 3D 人物 - 物体之间的空间关系。
Aug, 2023
本论文提出了一种详细的 2D-3D 联合表示学习方法,能够使计算机更好地理解人物和物体之间的交互行为,效果在大规模的 HOI 基准和 Ambiguous-HOI 数据集上表现良好。
Apr, 2020
这篇研究提出了一个新的机器学习模型,利用人类的行为、动作、动作具体区域等特征来预测目标对象的位置, 实现在图像中精确识别人体与目标物之间的互动关系,为实现目标识别和视觉感知提供了新的思路。
Apr, 2017
通过结构化文本知识,我们提出了一个系统且统一的框架 (RmLR) 来提高人物 - 物体交互检测,通过分析相互作用信息的损失并生成更全面的视觉表示,设计了更精细的句子 - 词级对齐和知识传递策略以有效解决多个交互和多个文本之间的匹配问题,进而提高了对交互的理解。实验结果表明我们的方法在公共基准测试上实现了最先进的性能,并进一步分析了我们方法的各个组成部分对效果的影响,为其功效提供了洞察。
Jul, 2023
本研究基于物体的易用性、可达性和相对人体姿态的关系,通过 3D 空间特征和 Dirichlet 过程混合模型学习场景中不同物体相对人体姿态的分布情况,并以此作为推理对象,通过合适的密度函数,预测物体在房间中的正确放置位置。实验证明,与最佳基线方法相比,该算法的平均误差小于 1.6 米,分数达到 4.3/5。
Jun, 2012
本研究通过应用基于 GPT-3 的大型语言模型的先验知识来推断人 - 物互动的多样化三维模型,通过提出一种基于行为调节模型的互动建模方法实现了对各种物体类别和互动类型的三维推理,从文本启示中推理人 - 物接触的关键洞察是大型文本模型能够帮助推理。通过在大型人 - 物互动数据集上进行定量评估,表明该方法可以产生更好的 3D 重建结果,并进一步在真实图像上进行定性评估,展示了其在互动类型和物体类别方面的普适性。
Sep, 2022
通过与 AI2-THOR 环境的互动,实现基于人类婴儿学习机制的计算框架,不依赖外部监督学习,从而有效地发现物体并学习物理特性。
Jun, 2020
本文研究了 3D 人类交互的意义和行为建模,并通过引入模型和数据集等多个方面的贡献,提出了一种解决 3D 重建中遗漏人体细微接触等问题的方法。
ChatHuman 是一个基于语言驱动的人类理解系统,通过结合和整合多种不同方法的技能,利用大型语言模型(LLM)选择和使用各种现有工具来解决 3D 人类相关问题,并通过学术出版物指导应用 3D 人类相关工具、生成上下文学习示例以处理新工具以及辨别和整合工具结果以提升对 3D 人类理解的能力。与现有模型相比,在工具选择准确性和多个 3D 人类相关任务的性能方面,ChatHuman 表现出更好的性能,是将多样方法整合为单一强大的 3D 人类推理系统的一步。
May, 2024