通过视觉语言集成实现零样本人 - 物体交互检测

Mar, 2024

通过视觉语言集成实现零样本人 - 物体交互检测

Towards Zero-shot Human-Object Interaction Detection via Vision-Language Integration

Weiying Xue, Qi Liu, Qiwei Xiong, Yuxiao Wang, Zhenao Wei...

TL;DR本研究提出了一种名为 KI2HOI 的新型框架，用于有效整合视觉语言模型的知识，从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式，设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外，创新的交互表示解码器通过交叉注意机制，有效地提取信息丰富的区域。为了处理低数据中的零样本学习，利用 CLIP 文本编码器的先验知识，为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明，我们的模型在各种零样本和全监督设置上优于以前的方法。

Abstract

Human-object interaction (HOI) detection aims to locate human-object pairs and identify their interaction categories in images. Most existing methods primarily focus on supervised learning, which relies on extensive manual HOI annotations. In this paper, we propose a novel framework, termed Knowledge Integration to HOI (KI2HOI), that effectively integrates t

human-object interaction detection knowledge integration zero-shot learning visual-language model additive self-attention mechanism

发现论文，激发创造

探索基于交互语义对齐的高效视觉语言模型 HOI 检测方法

ISA-HOI 是一种新颖的 HOI 探测器，它广泛利用了 CLIP 的知识，通过对视觉和文本特征之间的交互语义进行对齐，提取图像的全局上下文和物体的局部特征来改善图像中的交互特征，并且通过跨模态融合提高动词标签的文本特征，最终在较少的训练时期内在 HICO-DET 和 V-COCO 基准上取得了竞争性的结果，并在零样本设置下超越了最先进的方法。

Apr, 2024

HOICLIP：基于视觉 - 语言模型的高阶交互动作识别知识迁移方法

该研究提出了一种基于 CLIP 的 HOI 检测框架，通过交互解码器、知识融合块和文本编码器等模块从 CLIP 中高效地提取先验知识并实现更准确的 HOI 检测，同时建立动词分类器和利用全局 HOI 预测进行训练无关的增强，相较当前最先进方法在 HICO-Det 数据集上提高了 4.04 mAP。

Mar, 2023

视觉和语言知识蒸馏的端到端零样本 HOI 检测

本研究提出了一种基于视觉 - 语言知识蒸馏的全新的端到端零样本人 - 物交互检测 (EoID) 框架，旨在通过利用看到和看不到人 - 物交互之间的联系，发现潜在的人 - 物交互并识别出新的人 - 物交互类别，实现未知类别的人 - 物交互检测。大量实验结果表明，该模型不仅能够在 HICO-Det 数据集上具体实现，而且在相关指标上表现卓越，具有很好的实用价值。

Apr, 2022

仅借助交互标签和语言 / 视觉 - 语言先验信息的弱监督人体 - 物体 - 交互检测

本文介绍了一种使用图像级别交互标签和预训练的视觉语言模型和大型语言模型在文献中最弱的监督设置下来处理 HOI 检测的方法，该方法包括修剪非交互式人和物体建议来提高袋内正例对的质量、查询特定人类和对象类别之间可能的交互以强制模型不要强调不太可能的交互，以及使用辅助弱监督的介词预测任务来使模型明确地推理空间。实验显示，所有贡献均可以提高 HOI 检测的性能。

Mar, 2023

使用混合监督方法检测人与物体之间的交互

本文介绍了一种通过利用有强监督和弱监督数据相结合的方法来进行人物物品交互检测的流程，并介绍了一种交换元素技术来增加模型的鲁棒性，在 HICO-DET 数据集上的表现比同一监督模式下的最先进的弱监督和强监督方法表现更好。

Nov, 2020

人物 - 物体交互检测的可视化组成学习

本论文提出了一种深度可视化组合学习 (VCL) 框架，通过分解和组合 HOI 表示来解决 HOI 检测中的长尾分布问题，共享不同 HOI 样本和图像之间的对象和谓词特征，并生成新的交互样本和新类型的 HOI，从而显著缓解了低样本或零样本的 HOI 检测问题。在 HICO-DET 和 V-COCO 数据集上的实验证明了该方法的有效性，并且在 HICO-DET 上优于最新的最优方法。

Jul, 2020

使用交互点学习人 - 物交互检测

本文提出了一种基于全卷积的去检测人 - 物交互的新方法，该方法利用相互作用点直接定位和分类相互作用，并结合密集的相互作用向量，将相互作用与人和物的检测相结合，以获得最终的预测结果。该方法在 V-COCO 和 HICO-DET 两个常用基准上均取得了最新的最佳表现。

Mar, 2020

基于基础模型的空间提示学习的通用人物 - 物体交互关系检测器

在开放世界环境下，通过使用视觉语言（VL）基础模型和大型语言模型（LLMs），本研究探索了通用交互识别的方法，并通过进行深度分析和高级关系提取等设计，以实现超越现有方法的开放类别交互识别。

Nov, 2023

重新挖掘、学习和推理：探索跨模态语义相关性用于语言引导的 HOI 检测

通过结构化文本知识，我们提出了一个系统且统一的框架 (RmLR) 来提高人物 - 物体交互检测，通过分析相互作用信息的损失并生成更全面的视觉表示，设计了更精细的句子 - 词级对齐和知识传递策略以有效解决多个交互和多个文本之间的匹配问题，进而提高了对交互的理解。实验结果表明我们的方法在公共基准测试上实现了最先进的性能，并进一步分析了我们方法的各个组成部分对效果的影响，为其功效提供了洞察。

Jul, 2023

人 - 物交互检测中的可迁移交互知识

研究人体与物体互动关系，通过使用一个可学习的 Interactiveness Network，学习 HOI 数据集的互动知识，从而实现在 HOI 分类推理之前进行非交互抑制，并在 HICO-DET 和 V-COCO 数据集上验证了方法的有效性和灵活性。

Nov, 2018