从类别到风景：一个用于视频中多人人物 - 物体交互识别的端到端框架

Jul, 2024

从类别到风景：一个用于视频中多人人物 - 物体交互识别的端到端框架

From Category to Scenery: An End-to-End Framework for Multi-Person Human-Object Interaction Recognition in Videos

Tanqiu Qiao, Ruochen Li, Frederick W. B. Li, Hubert P. H. Shum

TL;DR提出了一种新的端到端类到场景框架 (CATS)，通过分别生成各个类别的几何特征，随后将其与对应的视觉特征融合，构建一个包含增强的几何 - 视觉特征的场景交互图，以学习人与物体类别之间的关系。该方法在两个关键的人物 - 物体交互基准测试 (MPHOI-72 和 CAD-120) 中展示了最先进的性能。

Abstract

Video-based Human-Object Interaction (HOI) recognition explores the intricate dynamics between humans and objects, which are essential for a comprehensive understanding of human behavior and intentions. While previous work has made significant strides, effectively integrating geometric and vi

video-based human-object interaction recognition geometric and visual features graph framework cats scenery interactive graph

发现论文，激发创造

利用场景图进行人 - 物互动检测

提出了一种利用场景图信息进行人 - 物交互（SG2HOI）检测的新方法，该方法通过全局背景信息和关系感知信息传递模块，利用图像中高级和语义的人物和物体关系，通过两种方式将场景图信息融入到 “人 - 物交互” 检测任务中，表现优于两个基准 HOI 数据集上的最新方法。

Aug, 2021

基于几何特征的视频多人物体交互识别

本研究提出一种基于几何特征的图卷积网络用于人 - 物交互识别，结合了人体姿态和物体位置等几何要素与视觉特征，在多人和多物体的情况下显著提高了识别准确率，并构建了新的多人人 - 物交互数据集 MPHOI-72。

Jul, 2022

通过眼球追踪在视频中预测人 - 物交互

本文设计了一个框架来检测并预测视频中的人 - 物交互，并提出了使用人类注视信息、场景背景和人 - 物对的视觉外观等特征进行融合的时空变换器，并在 VidHOI 数据集上进行了模型训练和验证。

Jun, 2023

级联的人物 - 物品相互作用识别

本文提出了一种基于级联架构的人体 - 目标交互理解方法，包括实例定位和交互识别两个阶段，并引入了关系排名和三元流分类器等组件，在边缘像素级别完成交互关系细分，实现了极佳的关系建模表现。

Mar, 2020

人 - 物交互检测的视觉 - 语义图注意力网络

通过双图注意力网络，可以动态地从主要的人 - 物关系和附属关系中聚合环境视觉、空间和语义信息以实现强大的消岐能力。

Jan, 2020

面向场景图生成与人物 - 物体交互检测的统一基于 Transformer 的框架

以 Transformer 架构为基础的统一一步模型 SG2HOI + 同时实现了场景图生成和人物对象互动检测，在视觉特征的基础上生成关系三元组，并基于此预测人物对象互动，实现了显著的性能提升，超过了现有单阶段场景图生成模型和最先进的人物对象互动方法。

Nov, 2023

按照意图交互：意图驱动的人 - 物交互检测

该研究探索了基于人体姿态、注视和距离等因素实现社交场景下人和物体之间相互作用识别的方法，并针对误分类问题提出硬负样本采样策略。在两个基准数据集，即 V-COCO 和 HICO-DET 上进行实验并验证了各个组件的有效性。

Aug, 2018

人 - 物交互分类的类别查询学习

通过使用类别查询学习来学习人 - 物相互作用分类任务中的交互类别，并通过转换器解码器将其转换为图像特定的类别表示，通过辅助的图像级分类任务来实现有效分类，最终实现了两个基准测试的最先进结果。

Mar, 2023

基于图的人 - 物交互检测交互式推理

本文提出了一种名为交互图的图形交互推理模型，以推断人类和周围物体的相互作用，并构建了新的框架用于检测 HOIs，即 in-GraphNet，该模型能够有效地利用视觉目标间的交互语义，且不需要昂贵的注释，实验证明该方法在 V-COCO 和 HICO-DET 基准测试中比现有的 HOI 检测方法表现更优，基准线相对提高了 9.4% 和 15%。

Jul, 2020

上下文异构图神经网络用于人 - 物交互检测

本文提出一种基于异构图网络的目标与人交互检测方法，通过将人和物体建模为不同种类的节点，利用节点之间的内部关联信息和跨类别信息，再利用图注意力机制提升学习效果，实验表明内部关系和跨类别信息对于目标与人交互检测非常重要，并证实了模型的有效性。

Oct, 2020