基于视频的人体 - 物体交互热点区域
本文设计了一个框架来检测并预测视频中的人 - 物交互,并提出了使用人类注视信息、场景背景和人 - 物对的视觉外观等特征进行融合的时空变换器,并在 VidHOI 数据集上进行了模型训练和验证。
Jun, 2023
本文提出一种名为 LOCATE 的框架,采用图像级别的适应性和对象标签对交互区域进行特征嵌入,并将其聚合为人类、对象部分和背景的紧凑原型之一,以指导功能接地的弱监督学习。对于新物体,实验证明我们的方法在训练图像和测试图像上性能都很好。
Mar, 2023
通过观察手在自然野外环境下的视频,本文致力于实现交互对象的理解,成功地应用这一基本原则于 EPIC-KITCHENS 数据集,从而纯粹通过观察手在自我中心视角的视频中学习状态敏感特征和对象特性。
Dec, 2021
本文提出了一种从人体活动视频中学习社交效应的机器人学习方法,该方法基于生成模型和马尔科夫链蒙特卡罗算法自动发现从 RGB-D 视频中的交互作用,让机器人能够自然地复制这些交互作用的完整体运动。
Apr, 2016
本研究提出一种通过 Object-Centric Transformer 模型来预测在 egocentric 视频中未来的手部和物品相互作用的方法,并使用概率框架来处理不确定性。在实验中,我们对 Epic-Kitchens-55、Epic-Kitchens-100 和 EGTEA Gaze+ 数据集进行了测试,并显示 OCT 较现有方法显著优越。
Apr, 2022
该研究探索了基于人体姿态、注视和距离等因素实现社交场景下人和物体之间相互作用识别的方法,并针对误分类问题提出硬负样本采样策略。在两个基准数据集,即 V-COCO 和 HICO-DET 上进行实验并验证了各个组件的有效性。
Aug, 2018
本论文探讨了如何通过利用互联网视频中的人类行为,训练一个可视化驱动的视觉能力模型,以此实现机器人在现实环境中的复杂任务执行。我们将该模型与四个机器人学习范式无缝连接,并在 4 个现实世界环境、超过 10 种不同任务和 2 个机器人平台中展示了其效力。
Apr, 2023
引入了一种可用于检测新物体的人 - 物互动以及识别物体能力的 “可供性转移学习方法”,有效提高了对新物体的 HOI 检测表现,并能够通过已知关于物体能力的表示信息来推断新物体的能力,并在 HICO-DET 以及 HOI-COCO 两个数据集上取得了显著的性能提升。
Apr, 2021
本文介绍了一种用于检测人与周围物体接触的新数据集 HOT,并使用该数据集训练了一个新的接触检测器,它可以输出 2D 接触热图以及处于接触状态的身体部位标签。该检测器采用了部分注意分支来通过周围身体部分和场景的上下文指导接触估计,并且定量的结果显示,该模型的性能优于基线,并且所有组件都对提高性能有贡献。
Mar, 2023
本文提出了基于 Transformer 的 Affordance Transformer 以及自我监督的预训练技术 Mask Affordance Hand,用于视频到图像的 Affordance Grounding 任务,提高了视频图像之间的一致性,实现了多项基准测试中最先进的性能。
Mar, 2023