面向场景图生成与人物 - 物体交互检测的统一基于 Transformer 的框架

Nov, 2023

面向场景图生成与人物 - 物体交互检测的统一基于 Transformer 的框架

Towards a Unified Transformer-based Framework for Scene Graph Generation and Human-object Interaction Detection

Tao He, Lianli Gao, Jingkuan Song, Yuan-Fang Li

TL;DR以 Transformer 架构为基础的统一一步模型 SG2HOI + 同时实现了场景图生成和人物对象互动检测，在视觉特征的基础上生成关系三元组，并基于此预测人物对象互动，实现了显著的性能提升，超过了现有单阶段场景图生成模型和最先进的人物对象互动方法。

Abstract

scene graph generation (SGG) and human-object interaction (HOI) detection are two important visual tasks aiming at localising and recognising relationships between objects, and interactions between humans and obj

scene graph generation human-object interaction transformer architecture unified one-step model end-to-end training

发现论文，激发创造

利用场景图进行人 - 物互动检测

提出了一种利用场景图信息进行人 - 物交互（SG2HOI）检测的新方法，该方法通过全局背景信息和关系感知信息传递模块，利用图像中高级和语义的人物和物体关系，通过两种方式将场景图信息融入到 “人 - 物交互” 检测任务中，表现优于两个基准 HOI 数据集上的最新方法。

Aug, 2021

GTNet: 指导 Transformer 网络用于检测人物 - 物体交互

文章介绍了 GTNet 模型，一种基于自注重的引导变换网络，它通过自注重将人和物体的视觉特征编码为空间上下文信息，从而增强了对人 - 物体交互的理解和检测。

Aug, 2021

人 - 物交互检测的视觉 - 语义图注意力网络

通过双图注意力网络，可以动态地从主要的人 - 物关系和附属关系中聚合环境视觉、空间和语义信息以实现强大的消岐能力。

Jan, 2020

基于图的人 - 物交互检测交互式推理

本文提出了一种名为交互图的图形交互推理模型，以推断人类和周围物体的相互作用，并构建了新的框架用于检测 HOIs，即 in-GraphNet，该模型能够有效地利用视觉目标间的交互语义，且不需要昂贵的注释，实验证明该方法在 V-COCO 和 HICO-DET 基准测试中比现有的 HOI 检测方法表现更优，基准线相对提高了 9.4% 和 15%。

Jul, 2020

HOI Transformer 实现端到端人体对象交互检测

HOI Transformer 是一种用于解决人与物体交互检测任务的算法，它可以通过全局图像上下文来推断物体与人的关系并在并行统一的方式下直接预测 HOI 实例，并引入了五元匹配损失来统一强制 HOI 预测，并能够在 HICO-DET 和 V-COCO 上取得比以前更好的性能表现。

Mar, 2021

基于解缠的 Transformer 的人 - 物互动检测

该研究旨在解决人 - 物交互检测中的联合定位和分类问题，通过提出解耦三元组预测为人 - 物对检测和交互分类两个子任务来学习关注不同区域的表示，从而设计出 Disentangled Transformer，与现有 HOI transformers 相比，其方法在两个公共 HOI 基准测试中表现更佳。

Apr, 2022

基于 Transformer 的端到端人 - 物交互检测

本文提出了一种基于 transformer 的编码器解码器框架，直接从图像中预测一组 <人，对象，交互> 三元组，通过此预测方法，我们的算法在不需要耗时的后处理的前提下，有效地利用图像中的固有语义关系，并实现了在对象检测后不到 1ms 的推理时间内，在两个 HOI 检测基准测试中实现了最新的性能。

Apr, 2021

几何特征增强的人物 - 物体交互检测

我们提出了一种新颖的端到端 Transformer-style HOI 检测模型，即几何特征增强的 HOI 检测器 (GeoHOI)，通过度量关键点的相似性以及局部关键点图像补充互动查询表示，以提升 HOI 预测的性能。 extensive experiments 表明，该方法在 V-COCO 上优于最先进的模型，并在 HICO-DET 上实现了竞争性能，案例研究结果表明了该方法在基于视觉仪器的灾后救援中的适用性。

Jun, 2024

DRG: 用于人物 - 物体交互检测的双重关系图

本研究解决了人 - 物互动检测的难题，提出了一种利用抽象空间 - 语义表示来描述每个人 - 物对并通过双重关系图聚合场景的上下文信息的方法，该模型相对于现有的算法在两个大型基准数据集上表现出更加优良的结果。

Aug, 2020

从类别到风景：一个用于视频中多人人物 - 物体交互识别的端到端框架

提出了一种新的端到端类到场景框架 (CATS)，通过分别生成各个类别的几何特征，随后将其与对应的视觉特征融合，构建一个包含增强的几何 - 视觉特征的场景交互图，以学习人与物体类别之间的关系。该方法在两个关键的人物 - 物体交互基准测试 (MPHOI-72 和 CAD-120) 中展示了最先进的性能。

Jul, 2024