人 - 物交互检测的视觉 - 语义图注意力网络

Jan, 2020

人 - 物交互检测的视觉 - 语义图注意力网络

Visual-Semantic Graph Attention Networks for Human-Object Interaction Detection

Zhijun Liang, Juan Rojas, Junfa Liu, Yisheng Guan

TL;DR通过双图注意力网络，可以动态地从主要的人 - 物关系和附属关系中聚合环境视觉、空间和语义信息以实现强大的消岐能力。

Abstract

In scene understanding, robotics benefit from not only detecting individual scene instances but also from learning their possible interactions. Human-Object Interaction (HOI) Detection infers the action predicate

scene understanding robotics human-object interaction detection graph networks attention mechanisms

发现论文，激发创造

利用场景图进行人 - 物互动检测

提出了一种利用场景图信息进行人 - 物交互（SG2HOI）检测的新方法，该方法通过全局背景信息和关系感知信息传递模块，利用图像中高级和语义的人物和物体关系，通过两种方式将场景图信息融入到 “人 - 物交互” 检测任务中，表现优于两个基准 HOI 数据集上的最新方法。

Aug, 2021

上下文异构图神经网络用于人 - 物交互检测

本文提出一种基于异构图网络的目标与人交互检测方法，通过将人和物体建模为不同种类的节点，利用节点之间的内部关联信息和跨类别信息，再利用图注意力机制提升学习效果，实验表明内部关系和跨类别信息对于目标与人交互检测非常重要，并证实了模型的有效性。

Oct, 2020

基于图的人 - 物交互检测交互式推理

本文提出了一种名为交互图的图形交互推理模型，以推断人类和周围物体的相互作用，并构建了新的框架用于检测 HOIs，即 in-GraphNet，该模型能够有效地利用视觉目标间的交互语义，且不需要昂贵的注释，实验证明该方法在 V-COCO 和 HICO-DET 基准测试中比现有的 HOI 检测方法表现更优，基准线相对提高了 9.4% 和 15%。

Jul, 2020

GTNet: 指导 Transformer 网络用于检测人物 - 物体交互

文章介绍了 GTNet 模型，一种基于自注重的引导变换网络，它通过自注重将人和物体的视觉特征编码为空间上下文信息，从而增强了对人 - 物体交互的理解和检测。

Aug, 2021

VSGNet：基于图卷积的空间关注网络，用于检测人体物体交互

Visual-Spatial-Graph Network (VSGNet) architecture effectively learns and utilizes object interactions in Human-Object Interaction (HOI) detection, demonstrating improved performance compared to state-of-the-art solutions in Verbs in COCO (V-COCO) and HICO-DET datasets.

Mar, 2020

iCAN: 实例中心注意力网络用于人 - 物交互检测

本文提出了一种利用实例注意力重点聚合一张图像中与人 - 物交互相关的特征，实现人 - 物交互检测任务的方法，并在 COCO 和 HICO-DET 数据集上验证了其有效性，结果明显优于现有技术。

Aug, 2018

DRG: 用于人物 - 物体交互检测的双重关系图

本研究解决了人 - 物互动检测的难题，提出了一种利用抽象空间 - 语义表示来描述每个人 - 物对并通过双重关系图聚合场景的上下文信息的方法，该模型相对于现有的算法在两个大型基准数据集上表现出更加优良的结果。

Aug, 2020

探索人物 - 物体交互中的谓词视觉环境

通过可视化和精心设计的实验，我们研究了 DETR 框架在人物 - 物体交互研究中的问题，并通过增强图像特征的方式，改进了模型的谓词视觉上下文，从而在 HICO-DET 和 V-COCO 基准上超过了最先进的方法，同时保持了较低的训练成本。

Aug, 2023

通过视觉语言集成实现零样本人 - 物体交互检测

本研究提出了一种名为 KI2HOI 的新型框架，用于有效整合视觉语言模型的知识，从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式，设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外，创新的交互表示解码器通过交叉注意机制，有效地提取信息丰富的区域。为了处理低数据中的零样本学习，利用 CLIP 文本编码器的先验知识，为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明，我们的模型在各种零样本和全监督设置上优于以前的方法。

Mar, 2024

通过图形解析神经网络学习人 - 物交互

本文介绍了一种利用结构化知识实现可微分端到端检测和识别图像和视频中的人 - 物交互的算法 —— 图解析神经网络（GPNN）。结果表明，在三个 HOI 检测基准测试上，我们的方法明显优于现有的最新方法，证明 GPNN 可以应用于大型数据集和时空设置，并可覆盖图解析和逐步计算相邻矩阵和节点标签。

Aug, 2018