人 - 物交互分类的类别查询学习 | BriefGPT

CVPRMar, 2023

人 - 物交互分类的类别查询学习

Category Query Learning for Human-Object Interaction Classification

Chi Xie, Fangao Zeng, Yue Hu, Shuang Liang, Yichen Wei

TL;DR通过使用类别查询学习来学习人 - 物相互作用分类任务中的交互类别，并通过转换器解码器将其转换为图像特定的类别表示，通过辅助的图像级分类任务来实现有效分类，最终实现了两个基准测试的最先进结果。

Abstract

Unlike most previous HOI methods that focus on learning better human-object features, we propose a novel and complementary approach called category query learning. Such queries are explicitly associated to interaction categories, converted to image specific category representation via a trans

human-object interaction category query learning image classification transformer decoder state-of-the-art results

发现论文，激发创造

类别感知变压器网络用于更好的人物 - 物体交互检测

本篇论文介绍了一种利用类别感知信息初始化对象查询提升变压器基础 HOI 检测器性能的方法，即 Category-Aware Transformer Network (CATN)，并通过验证实验和大量实验表明，该方法可以显著提高 HOI 检测器的性能，从而实现新的最先进结果。

Apr, 2022

通过视觉语言集成实现零样本人 - 物体交互检测

本研究提出了一种名为 KI2HOI 的新型框架，用于有效整合视觉语言模型的知识，从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式，设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外，创新的交互表示解码器通过交叉注意机制，有效地提取信息丰富的区域。为了处理低数据中的零样本学习，利用 CLIP 文本编码器的先验知识，为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明，我们的模型在各种零样本和全监督设置上优于以前的方法。

Mar, 2024

QPIC：基于查询的人 - 物交互配对检测，包含图像范围的上下文信息

提出了一种基于 transformer 的特征提取器，其中关注机制和基于查询的检测起着关键作用，可以避免多个 HOI 实例的特征混合，有效提取上下文重要特征，优于现有方法。

Mar, 2021

从类别到风景：一个用于视频中多人人物 - 物体交互识别的端到端框架

提出了一种新的端到端类到场景框架 (CATS)，通过分别生成各个类别的几何特征，随后将其与对应的视觉特征融合，构建一个包含增强的几何 - 视觉特征的场景交互图，以学习人与物体类别之间的关系。该方法在两个关键的人物 - 物体交互基准测试 (MPHOI-72 和 CAD-120) 中展示了最先进的性能。

Jul, 2024

HOI Transformer 实现端到端人体对象交互检测

HOI Transformer 是一种用于解决人与物体交互检测任务的算法，它可以通过全局图像上下文来推断物体与人的关系并在并行统一的方式下直接预测 HOI 实例，并引入了五元匹配损失来统一强制 HOI 预测，并能够在 HICO-DET 和 V-COCO 上取得比以前更好的性能表现。

Mar, 2021

基于 Transformer 的人物 - 对象交互检测中的组合学习

人物 - 物体互动（HOI）检测是理解人类活动和视觉场景的重要组成部分。本研究通过引入 transformer-based 框架，重新组合不同 HOI 实例中的人物 - 物体对表示和互动表示，从而获得更丰富的上下文信息，提高知识的泛化能力，并实现一种简单而有效的方法，其在稀有 HOI 类别上表现出卓越的性能。

Aug, 2023

人物 - 物体交互识别中被忽视的分类器

本文探讨了人 - 物体交互检测的两个挑战：类别不平衡和每图像多标签需求的有效解决方法，分别是通过对比分析 HOIs 语言嵌入来初始化权重和使用 LSE-Sign 损失加强多标签学习，从而实现了无需依赖物体检测和人体姿势检测的 HOI 分类，在集成现有物体检测模型后，达到了最先进的检测结果。

Dec, 2021

基于解缠的 Transformer 的人 - 物互动检测

该研究旨在解决人 - 物交互检测中的联合定位和分类问题，通过提出解耦三元组预测为人 - 物对检测和交互分类两个子任务来学习关注不同区域的表示，从而设计出 Disentangled Transformer，与现有 HOI transformers 相比，其方法在两个公共 HOI 基准测试中表现更佳。

Apr, 2022

使用交互点学习人 - 物交互检测

本文提出了一种基于全卷积的去检测人 - 物交互的新方法，该方法利用相互作用点直接定位和分类相互作用，并结合密集的相互作用向量，将相互作用与人和物的检测相结合，以获得最终的预测结果。该方法在 V-COCO 和 HICO-DET 两个常用基准上均取得了最新的最佳表现。

Mar, 2020

仅借助交互标签和语言 / 视觉 - 语言先验信息的弱监督人体 - 物体 - 交互检测

本文介绍了一种使用图像级别交互标签和预训练的视觉语言模型和大型语言模型在文献中最弱的监督设置下来处理 HOI 检测的方法，该方法包括修剪非交互式人和物体建议来提高袋内正例对的质量、查询特定人类和对象类别之间可能的交互以强制模型不要强调不太可能的交互，以及使用辅助弱监督的介词预测任务来使模型明确地推理空间。实验显示，所有贡献均可以提高 HOI 检测的性能。

Mar, 2023