基于解缠的 Transformer 的人 - 物互动检测

CVPRApr, 2022

基于解缠的 Transformer 的人 - 物互动检测

Human-Object Interaction Detection via Disentangled Transformer

Desen Zhou, Zhichao Liu, Jian Wang, Leshan Wang, Tao Hu...

TL;DR该研究旨在解决人 - 物交互检测中的联合定位和分类问题，通过提出解耦三元组预测为人 - 物对检测和交互分类两个子任务来学习关注不同区域的表示，从而设计出 Disentangled Transformer，与现有 HOI transformers 相比，其方法在两个公共 HOI 基准测试中表现更佳。

Abstract

human-object interaction detection tackles the problem of joint localization and classification of human object interactions. Existing hoi transformers either adopt a single decoder for →

human-object interaction detection hoi transformers disentangled transformer triplet prediction interaction classification

发现论文，激发创造

HOI Transformer 实现端到端人体对象交互检测

HOI Transformer 是一种用于解决人与物体交互检测任务的算法，它可以通过全局图像上下文来推断物体与人的关系并在并行统一的方式下直接预测 HOI 实例，并引入了五元匹配损失来统一强制 HOI 预测，并能够在 HICO-DET 和 V-COCO 上取得比以前更好的性能表现。

Mar, 2021

基于 Transformer 的端到端人 - 物交互检测

本文提出了一种基于 transformer 的编码器解码器框架，直接从图像中预测一组 <人，对象，交互> 三元组，通过此预测方法，我们的算法在不需要耗时的后处理的前提下，有效地利用图像中的固有语义关系，并实现了在对象检测后不到 1ms 的推理时间内，在两个 HOI 检测基准测试中实现了最新的性能。

Apr, 2021

HODN: 人物 - 物体特征解离的 HOI 检测

人物与物体的交互检测任务中，基于 Transformer 的方法显示出了显著的进展。然而，这些方法忽略了人物、物体和交互之间的关系，而我们提出了人物与物体解耦网络（HODN）来明确建模交互关系。我们的方法在 V-COCO 和 HICO-Det 数据集上取得了竞争性的性能，并且可以方便地与现有方法结合以获得最新的结果。

Aug, 2023

人物 - 物体交互检测的解耦预训练

提出了一种用于人物 - 物体交互检测（DP-HOI）的有效分离预训练方法，通过利用目标检测和动作识别数据集预训练检测和交互解码器层，并结合图像级监督实现了有效的模型参数初始化，从而显著提高现有 HOI 检测模型在各种稀有类别上的性能。

Apr, 2024

神经逻辑人 - 物体交互检测

使用神经逻辑推理和 Transformer 来推断实体之间的可行互动，通过改进 Transformer 的自注意机制，使用逻辑约束学习过程，提高性能和零样本泛化能力。

Nov, 2023

一种高效的两阶段人 - 物交互检测方法：一种新型的一元 - 双元转换器

在本论文中，我们提出了基于一种二步检测器 ——Unary-Pairwise Transformer，它利用 HOIs 的一元和二元表示，通过使用与 DETR 相同的 Transformer 来训练，我们发现在相同的 Transformer 下，使用二步检测器比使用一步检测器可以提高预测性能和减少训练时间。我们在 HICO-DET 和 V-COCO 数据集上进行了评估，并明显优于最先进的方法。在推理时间内，我们的模型通过使用 ResNet50 能够在单个 GPU 上实现实时性能。

Dec, 2021

一阶段人物目标交互检测的解缠交互表示

通过引入 Shunted Cross-Attention（SCA）和 Interaction-aware Pose Estimation（IPE）等技术，本文对一阶段方法进行改进，使其能够提取出解开的互动表示，从而在两个基准测试上实现了最先进的性能。

Dec, 2023

基于 Transformer 的人物 - 对象交互检测中的组合学习

人物 - 物体互动（HOI）检测是理解人类活动和视觉场景的重要组成部分。本研究通过引入 transformer-based 框架，重新组合不同 HOI 实例中的人物 - 物体对表示和互动表示，从而获得更丰富的上下文信息，提高知识的泛化能力，并实现一种简单而有效的方法，其在稀有 HOI 类别上表现出卓越的性能。

Aug, 2023

GTNet: 指导 Transformer 网络用于检测人物 - 物体交互

文章介绍了 GTNet 模型，一种基于自注重的引导变换网络，它通过自注重将人和物体的视觉特征编码为空间上下文信息，从而增强了对人 - 物体交互的理解和检测。

Aug, 2021

面向场景图生成与人物 - 物体交互检测的统一基于 Transformer 的框架

以 Transformer 架构为基础的统一一步模型 SG2HOI + 同时实现了场景图生成和人物对象互动检测，在视觉特征的基础上生成关系三元组，并基于此预测人物对象互动，实现了显著的性能提升，超过了现有单阶段场景图生成模型和最先进的人物对象互动方法。

Nov, 2023