ViPLO: 基于视觉 Transformer 和姿势条件自回路图的人 - 物交互检测

CVPRApr, 2023

ViPLO: 基于视觉 Transformer 和姿势条件自回路图的人 - 物交互检测

ViPLO: Vision Transformer based Pose-Conditioned Self-Loop Graph for Human-Object Interaction Detection

Jeeseung Park, Jin-Woo Park, Jong-Seok Lee

TL;DR本研究提出采用 Vision Transformer 结构的 Pose-Conditioned Self-Loop Graph (ViPLO) 模型，通过特定的人体节点更新方式和局部特征的加入，解决了在人和物体之间关系推理中的量化问题，并在公共基准上取得了最新的成果。

Abstract

human-object interaction (HOI) detection, which localizes and infers relationships between human and objects, plays an important role in scene understanding. Although two-stage HOI detectors have advantages of high efficiency in training and inference, they suffer from lower performanc

human-object interaction hoi detection vision transformer self-loop structure map performance

发现论文，激发创造

将 HOI 检测重构为自适应集合预测

本文提出一种基于 Adaptive Set Prediction 的 AS-Net 框架，通过多头注意力聚合查询集和全局上下文推理交互相关特征，同时使用实例感知注意模块将实例分支的特征引入交互分支，以实现更为准确高效的人物 - 物体交互检测。本方法在三个 HOI 检测数据集上实现比前沿方法更好的结果，尤其在大规模 HICO-DET 数据集上，相对于之前的最优结果实现了超过 31% 的性能提升。

Mar, 2021

人 - 物交互识别和人体姿态估计的 Turbo 学习框架

本研究提出了一种快速学习框架实现同时进行 HOI 识别和姿态估计的任务。通过姿态感知 HOI 识别模块和 HOI 指导姿态估计模块之间的信息传递形成了一个闭环，使两个模块可以迭代地利用互补信息，并可以进行端到端的训练。该方法在两个公共基准数据集（V-COCO 和 HICO-DET）上实现了最先进的性能。

Mar, 2019

HOI Transformer 实现端到端人体对象交互检测

HOI Transformer 是一种用于解决人与物体交互检测任务的算法，它可以通过全局图像上下文来推断物体与人的关系并在并行统一的方式下直接预测 HOI 实例，并引入了五元匹配损失来统一强制 HOI 预测，并能够在 HICO-DET 和 V-COCO 上取得比以前更好的性能表现。

Mar, 2021

通过视觉语言集成实现零样本人 - 物体交互检测

本研究提出了一种名为 KI2HOI 的新型框架，用于有效整合视觉语言模型的知识，从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式，设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外，创新的交互表示解码器通过交叉注意机制，有效地提取信息丰富的区域。为了处理低数据中的零样本学习，利用 CLIP 文本编码器的先验知识，为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明，我们的模型在各种零样本和全监督设置上优于以前的方法。

Mar, 2024

HOICLIP：基于视觉 - 语言模型的高阶交互动作识别知识迁移方法

该研究提出了一种基于 CLIP 的 HOI 检测框架，通过交互解码器、知识融合块和文本编码器等模块从 CLIP 中高效地提取先验知识并实现更准确的 HOI 检测，同时建立动词分类器和利用全局 HOI 预测进行训练无关的增强，相较当前最先进方法在 HICO-Det 数据集上提高了 4.04 mAP。

Mar, 2023

探索基于交互语义对齐的高效视觉语言模型 HOI 检测方法

ISA-HOI 是一种新颖的 HOI 探测器，它广泛利用了 CLIP 的知识，通过对视觉和文本特征之间的交互语义进行对齐，提取图像的全局上下文和物体的局部特征来改善图像中的交互特征，并且通过跨模态融合提高动词标签的文本特征，最终在较少的训练时期内在 HICO-DET 和 V-COCO 基准上取得了竞争性的结果，并在零样本设置下超越了最先进的方法。

Apr, 2024

使用交互点学习人 - 物交互检测

本文提出了一种基于全卷积的去检测人 - 物交互的新方法，该方法利用相互作用点直接定位和分类相互作用，并结合密集的相互作用向量，将相互作用与人和物的检测相结合，以获得最终的预测结果。该方法在 V-COCO 和 HICO-DET 两个常用基准上均取得了最新的最佳表现。

Mar, 2020

人 - 物交互检测的视觉 - 语义图注意力网络

通过双图注意力网络，可以动态地从主要的人 - 物关系和附属关系中聚合环境视觉、空间和语义信息以实现强大的消岐能力。

Jan, 2020

几何特征增强的人物 - 物体交互检测

我们提出了一种新颖的端到端 Transformer-style HOI 检测模型，即几何特征增强的 HOI 检测器 (GeoHOI)，通过度量关键点的相似性以及局部关键点图像补充互动查询表示，以提升 HOI 预测的性能。 extensive experiments 表明，该方法在 V-COCO 上优于最先进的模型，并在 HICO-DET 上实现了竞争性能，案例研究结果表明了该方法在基于视觉仪器的灾后救援中的适用性。

Jun, 2024

通过虚拟图像学习改进人物 - 物体交互检测

本文提出了一种基于虚拟图像学习的方法来解决人 - 物交互检测任务中类别分布不平衡的问题，通过借助虚拟图像和真实图像训练模型，构建伪标签以及结合现有方法进行训练，取得了显著改进并实现了新的最先进结果。

Aug, 2023