基于基础模型的空间提示学习的通用人物 - 物体交互关系检测器

Nov, 2023

基于基础模型的空间提示学习的通用人物 - 物体交互关系检测器

Detecting Any Human-Object Interaction Relationship: Universal HOI Detector with Spatial Prompt Learning on Foundation Models

PDF

Yichao Cao, Qingfei Tang, Xiu Su, Chen Song, Shan You...

TL;DR在开放世界环境下，通过使用视觉语言（VL）基础模型和大型语言模型（LLMs），本研究探索了通用交互识别的方法，并通过进行深度分析和高级关系提取等设计，以实现超越现有方法的开放类别交互识别。

Abstract

Human-object interaction (HOI) detection aims to comprehend the intricate relationships between humans and objects, predicting $$ triplets, and serving as the foundation for numerous computer vision tasks. The complexity and diversity of human-object interactions in the real world, however, pose significant challenges for both annotati

human-object interaction (hoi) detection vision-language (vl) foundation models large language models (llms)high-level relation extraction unihoi

发现论文，激发创造

通过视觉语言集成实现零样本人 - 物体交互检测

本研究提出了一种名为 KI2HOI 的新型框架，用于有效整合视觉语言模型的知识，从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式，设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外，创新的交互表示解码器通过交叉注意机制，有效地提取信息丰富的区域。为了处理低数据中的零样本学习，利用 CLIP 文本编码器的先验知识，为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明，我们的模型在各种零样本和全监督设置上优于以前的方法。

Mar, 2024

探索大型基础模型在开放词汇 HOI 检测中的潜力

通过引入条件多级解码和细粒度语义增强（CMD-SE）的新型端到端开放词汇 HOI 检测框架，利用视觉 - 语言模型 (VLMs)，本研究模拟不同距离的人 - 物对的不同特征图级别，进一步利用大型语言模型（LLMs）生成人体部位状态的描述，以改进人体与物体的交互识别，并在 SWIG-HOI 和 HICO-DET 两个数据集上取得了领先的开放词汇 HOI 检测结果。

Apr, 2024

使用交互点学习人 - 物交互检测

本文提出了一种基于全卷积的去检测人 - 物交互的新方法，该方法利用相互作用点直接定位和分类相互作用，并结合密集的相互作用向量，将相互作用与人和物的检测相结合，以获得最终的预测结果。该方法在 V-COCO 和 HICO-DET 两个常用基准上均取得了最新的最佳表现。

Mar, 2020

通过功能泛化检测人 - 物交互

本文提出了一种基于人与物体功能相似性的人类 - 物体交互检测方法，使用视觉特征、人类和物体之间的相对空间方向和功能相似物体参与相似交互的知识。在 HOI 数据集上，该方法在平均精度方面的绝对增益为 2.5%，并且在已知物体情况下实现了零样本 HOI 检测和广义物体检测。

Apr, 2019

仅借助交互标签和语言 / 视觉 - 语言先验信息的弱监督人体 - 物体 - 交互检测

本文介绍了一种使用图像级别交互标签和预训练的视觉语言模型和大型语言模型在文献中最弱的监督设置下来处理 HOI 检测的方法，该方法包括修剪非交互式人和物体建议来提高袋内正例对的质量、查询特定人类和对象类别之间可能的交互以强制模型不要强调不太可能的交互，以及使用辅助弱监督的介词预测任务来使模型明确地推理空间。实验显示，所有贡献均可以提高 HOI 检测的性能。

Mar, 2023

多模式提示下的开放世界人物 - 物体交互检测

我们开发了一种名为 MP-HOI 的强大的多模态基于提示的 HOI 检测器，它能够利用文本描述进行开集通用化，并通过处理描述中的高歧义，实现对开放世界中的 HOI 的检测。我们构建了一个名为 Magic-HOI 的大规模 HOI 数据集，用于促进 MP-HOI 的训练，并介绍了一个自动化流程来生成逼真的 HOI 图像，并提供了包含 100K 图像的高质量合成 HOI 数据集 SynHOI。利用这两个数据集，MP-HOI 通过统一的对比损失将 HOI 任务优化为多模态提示和对象 / 交互之间的相似度学习过程，以从大规模数据中学习可推广和可传递的对象 / 交互表示。MP-HOI 可以作为 HOI 检测器的通用模型，其词汇量超过现有专家模型的 30 倍以上。与此同时，我们的结果表明，MP-HOI 在真实世界的场景中表现出卓越的零样本能力，并在各种基准测试中始终达到新的最先进性能。

Jun, 2024

人物 - 物体交互检测的可传递交互知识

本文研究了人物和物体间的交互行为，发现交互知识可以跨越不同的数据集，形成通用的交互知识网络，并且可以与任何 HOI 检测模型合作，进而提高 HOI 检测效率和准确性。通过使用实例和人体部位的特征信息，本文还提出了一种层次化的交互知识获取方法，同时采用一致性任务深度提取可视化线索。在 HICO-DET、V-COCO 和 PaStaNet-HOI 数据集上的实验结果表明，该方法优于现有的 HOI 检测方法。

Jan, 2021

人 - 物交互检测中的可迁移交互知识

研究人体与物体互动关系，通过使用一个可学习的 Interactiveness Network，学习 HOI 数据集的互动知识，从而实现在 HOI 分类推理之前进行非交互抑制，并在 HICO-DET 和 V-COCO 数据集上验证了方法的有效性和灵活性。

Nov, 2018

探索时空人 - 物交互中的各种对象

本文提出了一个基于 AVA 的新数据集，名为 DIO，用于检测人类和物体之间的空间和时间交互作用，同时利用层次化的空间时间人 / 环境线索，设计了 HPN 算法对交互中的对象进行发现。实验表明，该算法表现出良好的性能。

Nov, 2022

人 - 物交互检测的视觉 - 语义图注意力网络

通过双图注意力网络，可以动态地从主要的人 - 物关系和附属关系中聚合环境视觉、空间和语义信息以实现强大的消岐能力。

Jan, 2020