仅借助交互标签和语言 / 视觉 - 语言先验信息的弱监督人体 - 物体 - 交互检测

Mar, 2023

仅借助交互标签和语言 / 视觉 - 语言先验信息的弱监督人体 - 物体 - 交互检测

Weakly-Supervised HOI Detection from Interaction Labels Only and Language/Vision-Language Priors

Mesut Erhan Unal, Adriana Kovashka

TL;DR本文介绍了一种使用图像级别交互标签和预训练的视觉语言模型和大型语言模型在文献中最弱的监督设置下来处理 HOI 检测的方法，该方法包括修剪非交互式人和物体建议来提高袋内正例对的质量、查询特定人类和对象类别之间可能的交互以强制模型不要强调不太可能的交互，以及使用辅助弱监督的介词预测任务来使模型明确地推理空间。实验显示，所有贡献均可以提高 HOI 检测的性能。

Abstract

human-object interaction (HOI) detection aims to extract interacting human-object pairs and their interaction categories from a given natural image. Even though the labeling effort required for building hoi detection

human-object interaction hoi detection weakly-supervised learning pretrained vision-language model interaction detection

发现论文，激发创造

通过视觉语言集成实现零样本人 - 物体交互检测

本研究提出了一种名为 KI2HOI 的新型框架，用于有效整合视觉语言模型的知识，从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式，设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外，创新的交互表示解码器通过交叉注意机制，有效地提取信息丰富的区域。为了处理低数据中的零样本学习，利用 CLIP 文本编码器的先验知识，为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明，我们的模型在各种零样本和全监督设置上优于以前的方法。

Mar, 2024

使用混合监督方法检测人与物体之间的交互

本文介绍了一种通过利用有强监督和弱监督数据相结合的方法来进行人物物品交互检测的流程，并介绍了一种交换元素技术来增加模型的鲁棒性，在 HICO-DET 数据集上的表现比同一监督模式下的最先进的弱监督和强监督方法表现更好。

Nov, 2020

基于先验指导的双层表示学习的弱监督 HOI 检测

使用 CLIP-guided HOI 表示法和自学习机制的弱监督人物 - 对象交互检测方法，在 HICO-DET 和 V-COCO 数据集上表现显著好于先前工作，表明了该方法的有效性。

Mar, 2023

通过虚拟图像学习改进人物 - 物体交互检测

本文提出了一种基于虚拟图像学习的方法来解决人 - 物交互检测任务中类别分布不平衡的问题，通过借助虚拟图像和真实图像训练模型，构建伪标签以及结合现有方法进行训练，取得了显著改进并实现了新的最先进结果。

Aug, 2023

基于基础模型的空间提示学习的通用人物 - 物体交互关系检测器

在开放世界环境下，通过使用视觉语言（VL）基础模型和大型语言模型（LLMs），本研究探索了通用交互识别的方法，并通过进行深度分析和高级关系提取等设计，以实现超越现有方法的开放类别交互识别。

Nov, 2023

重新挖掘、学习和推理：探索跨模态语义相关性用于语言引导的 HOI 检测

通过结构化文本知识，我们提出了一个系统且统一的框架 (RmLR) 来提高人物 - 物体交互检测，通过分析相互作用信息的损失并生成更全面的视觉表示，设计了更精细的句子 - 词级对齐和知识传递策略以有效解决多个交互和多个文本之间的匹配问题，进而提高了对交互的理解。实验结果表明我们的方法在公共基准测试上实现了最先进的性能，并进一步分析了我们方法的各个组成部分对效果的影响，为其功效提供了洞察。

Jul, 2023

使用交互点学习人 - 物交互检测

本文提出了一种基于全卷积的去检测人 - 物交互的新方法，该方法利用相互作用点直接定位和分类相互作用，并结合密集的相互作用向量，将相互作用与人和物的检测相结合，以获得最终的预测结果。该方法在 V-COCO 和 HICO-DET 两个常用基准上均取得了最新的最佳表现。

Mar, 2020

探索基于交互语义对齐的高效视觉语言模型 HOI 检测方法

ISA-HOI 是一种新颖的 HOI 探测器，它广泛利用了 CLIP 的知识，通过对视觉和文本特征之间的交互语义进行对齐，提取图像的全局上下文和物体的局部特征来改善图像中的交互特征，并且通过跨模态融合提高动词标签的文本特征，最终在较少的训练时期内在 HICO-DET 和 V-COCO 基准上取得了竞争性的结果，并在零样本设置下超越了最先进的方法。

Apr, 2024

人物 - 物体交互识别中被忽视的分类器

本文探讨了人 - 物体交互检测的两个挑战：类别不平衡和每图像多标签需求的有效解决方法，分别是通过对比分析 HOIs 语言嵌入来初始化权重和使用 LSE-Sign 损失加强多标签学习，从而实现了无需依赖物体检测和人体姿势检测的 HOI 分类，在集成现有物体检测模型后，达到了最先进的检测结果。

Dec, 2021

HOICLIP：基于视觉 - 语言模型的高阶交互动作识别知识迁移方法

该研究提出了一种基于 CLIP 的 HOI 检测框架，通过交互解码器、知识融合块和文本编码器等模块从 CLIP 中高效地提取先验知识并实现更准确的 HOI 检测，同时建立动词分类器和利用全局 HOI 预测进行训练无关的增强，相较当前最先进方法在 HICO-Det 数据集上提高了 4.04 mAP。

Mar, 2023