基于 Transformer 的端到端人 - 物交互检测

CVPRApr, 2021

基于 Transformer 的端到端人 - 物交互检测

HOTR: End-to-End Human-Object Interaction Detection with Transformers

Bumsoo Kim, Junhyun Lee, Jaewoo Kang, Eun-Sol Kim, Hyunwoo J. Kim

TL;DR本文提出了一种基于 transformer 的编码器解码器框架，直接从图像中预测一组 <人，对象，交互> 三元组，通过此预测方法，我们的算法在不需要耗时的后处理的前提下，有效地利用图像中的固有语义关系，并实现了在对象检测后不到 1ms 的推理时间内，在两个 HOI 检测基准测试中实现了最新的性能。

Abstract

human-object interaction (HOI) detection is a task of identifying "a set of interactions" in an image, which involves the i) localization of the subject (i.e., humans) and target (i.e., objects) of interaction, and ii) the classification of the interaction labels. Most existing methods

human-object interaction hoi detection transformer encoder-decoder architecture semantic relationships inference time

发现论文，激发创造

HOI Transformer 实现端到端人体对象交互检测

HOI Transformer 是一种用于解决人与物体交互检测任务的算法，它可以通过全局图像上下文来推断物体与人的关系并在并行统一的方式下直接预测 HOI 实例，并引入了五元匹配损失来统一强制 HOI 预测，并能够在 HICO-DET 和 V-COCO 上取得比以前更好的性能表现。

Mar, 2021

基于解缠的 Transformer 的人 - 物互动检测

该研究旨在解决人 - 物交互检测中的联合定位和分类问题，通过提出解耦三元组预测为人 - 物对检测和交互分类两个子任务来学习关注不同区域的表示，从而设计出 Disentangled Transformer，与现有 HOI transformers 相比，其方法在两个公共 HOI 基准测试中表现更佳。

Apr, 2022

MSTR: 多尺度变换器用于端到端的人 - 物交互检测

该论文提出了一种基于多尺度转换器和两个新型的 HOI 感知可变形注意模块的 HOI 检测方法，能够有效地识别具有不同比例和距离的人、物体和它们之间的交互动作，实验结果在两个 HOI 检测基准测试中达到了最新的最佳表现。

Mar, 2022

GTNet: 指导 Transformer 网络用于检测人物 - 物体交互

文章介绍了 GTNet 模型，一种基于自注重的引导变换网络，它通过自注重将人和物体的视觉特征编码为空间上下文信息，从而增强了对人 - 物体交互的理解和检测。

Aug, 2021

HODN: 人物 - 物体特征解离的 HOI 检测

人物与物体的交互检测任务中，基于 Transformer 的方法显示出了显著的进展。然而，这些方法忽略了人物、物体和交互之间的关系，而我们提出了人物与物体解耦网络（HODN）来明确建模交互关系。我们的方法在 V-COCO 和 HICO-Det 数据集上取得了竞争性的性能，并且可以方便地与现有方法结合以获得最新的结果。

Aug, 2023

神经逻辑人 - 物体交互检测

使用神经逻辑推理和 Transformer 来推断实体之间的可行互动，通过改进 Transformer 的自注意机制，使用逻辑约束学习过程，提高性能和零样本泛化能力。

Nov, 2023

基于 Transformer 的人物 - 对象交互检测中的组合学习

人物 - 物体互动（HOI）检测是理解人类活动和视觉场景的重要组成部分。本研究通过引入 transformer-based 框架，重新组合不同 HOI 实例中的人物 - 物体对表示和互动表示，从而获得更丰富的上下文信息，提高知识的泛化能力，并实现一种简单而有效的方法，其在稀有 HOI 类别上表现出卓越的性能。

Aug, 2023

几何特征增强的人物 - 物体交互检测

我们提出了一种新颖的端到端 Transformer-style HOI 检测模型，即几何特征增强的 HOI 检测器 (GeoHOI)，通过度量关键点的相似性以及局部关键点图像补充互动查询表示，以提升 HOI 预测的性能。 extensive experiments 表明，该方法在 V-COCO 上优于最先进的模型，并在 HICO-DET 上实现了竞争性能，案例研究结果表明了该方法在基于视觉仪器的灾后救援中的适用性。

Jun, 2024

人 - 物交互识别和人体姿态估计的 Turbo 学习框架

本研究提出了一种快速学习框架实现同时进行 HOI 识别和姿态估计的任务。通过姿态感知 HOI 识别模块和 HOI 指导姿态估计模块之间的信息传递形成了一个闭环，使两个模块可以迭代地利用互补信息，并可以进行端到端的训练。该方法在两个公共基准数据集（V-COCO 和 HICO-DET）上实现了最先进的性能。

Mar, 2019

面向场景图生成与人物 - 物体交互检测的统一基于 Transformer 的框架

以 Transformer 架构为基础的统一一步模型 SG2HOI + 同时实现了场景图生成和人物对象互动检测，在视觉特征的基础上生成关系三元组，并基于此预测人物对象互动，实现了显著的性能提升，超过了现有单阶段场景图生成模型和最先进的人物对象互动方法。

Nov, 2023