探索大型基础模型在开放词汇 HOI 检测中的潜力

Apr, 2024

探索大型基础模型在开放词汇 HOI 检测中的潜力

Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection

Ting Lei, Shaofeng Yin, Yang Liu

TL;DR通过引入条件多级解码和细粒度语义增强（CMD-SE）的新型端到端开放词汇 HOI 检测框架，利用视觉 - 语言模型 (VLMs)，本研究模拟不同距离的人 - 物对的不同特征图级别，进一步利用大型语言模型（LLMs）生成人体部位状态的描述，以改进人体与物体的交互识别，并在 SWIG-HOI 和 HICO-DET 两个数据集上取得了领先的开放词汇 HOI 检测结果。

Abstract

Open-vocabulary human-object interaction (HOI) detection, which is concerned with the problem of detecting novel HOIs guided by natural language, is crucial for understanding human-centric scenes. However, prior zero-shot HOI detectors often employ the same levels of feature maps to model HOIs with varying distances, leading to suboptimal performance in scen

human-object interaction detection open vocabulary visual-language models conditional multi-level decoding fine-grained semantic enhancement

发现论文，激发创造

基于基础模型的空间提示学习的通用人物 - 物体交互关系检测器

在开放世界环境下，通过使用视觉语言（VL）基础模型和大型语言模型（LLMs），本研究探索了通用交互识别的方法，并通过进行深度分析和高级关系提取等设计，以实现超越现有方法的开放类别交互识别。

Nov, 2023

通过视觉语言集成实现零样本人 - 物体交互检测

本研究提出了一种名为 KI2HOI 的新型框架，用于有效整合视觉语言模型的知识，从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式，设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外，创新的交互表示解码器通过交叉注意机制，有效地提取信息丰富的区域。为了处理低数据中的零样本学习，利用 CLIP 文本编码器的先验知识，为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明，我们的模型在各种零样本和全监督设置上优于以前的方法。

Mar, 2024

探索基于交互语义对齐的高效视觉语言模型 HOI 检测方法

ISA-HOI 是一种新颖的 HOI 探测器，它广泛利用了 CLIP 的知识，通过对视觉和文本特征之间的交互语义进行对齐，提取图像的全局上下文和物体的局部特征来改善图像中的交互特征，并且通过跨模态融合提高动词标签的文本特征，最终在较少的训练时期内在 HICO-DET 和 V-COCO 基准上取得了竞争性的结果，并在零样本设置下超越了最先进的方法。

Apr, 2024

视觉和语言知识蒸馏的端到端零样本 HOI 检测

本研究提出了一种基于视觉 - 语言知识蒸馏的全新的端到端零样本人 - 物交互检测 (EoID) 框架，旨在通过利用看到和看不到人 - 物交互之间的联系，发现潜在的人 - 物交互并识别出新的人 - 物交互类别，实现未知类别的人 - 物交互检测。大量实验结果表明，该模型不仅能够在 HICO-Det 数据集上具体实现，而且在相关指标上表现卓越，具有很好的实用价值。

Apr, 2022

HOICLIP：基于视觉 - 语言模型的高阶交互动作识别知识迁移方法

该研究提出了一种基于 CLIP 的 HOI 检测框架，通过交互解码器、知识融合块和文本编码器等模块从 CLIP 中高效地提取先验知识并实现更准确的 HOI 检测，同时建立动词分类器和利用全局 HOI 预测进行训练无关的增强，相较当前最先进方法在 HICO-Det 数据集上提高了 4.04 mAP。

Mar, 2023

通过大型视觉语言模型生成面向人物 - 物体交互检测的人类中心视觉线索

在这篇论文中，我们提出了三个用于生成图像中的人类中心视觉线索的提示，并结合了多人的多视角来生成丰富的人类中心视觉线索，以用于人物 - 物体交互检测，我们的实验证明了利用这些生成的人类中心视觉线索进行交互检测的有效性，而我们提出的模型在两个广泛使用的数据集上的实验结果表明其在现有最先进方法上的优越性。

Nov, 2023

基于概念引导记忆的高效自适应人 - 物交互检测

本文提出了一种自适应 HOI 检测器，利用预训练模型并在长尾标记数据上进行训练，可有效地定位和推断人与物体之间的关系。该方法在 HICO-DET 和 V-COCO 数据集上获得了与最先进方法竞争力相当的结果，训练时间更短。

Sep, 2023

仅借助交互标签和语言 / 视觉 - 语言先验信息的弱监督人体 - 物体 - 交互检测

本文介绍了一种使用图像级别交互标签和预训练的视觉语言模型和大型语言模型在文献中最弱的监督设置下来处理 HOI 检测的方法，该方法包括修剪非交互式人和物体建议来提高袋内正例对的质量、查询特定人类和对象类别之间可能的交互以强制模型不要强调不太可能的交互，以及使用辅助弱监督的介词预测任务来使模型明确地推理空间。实验显示，所有贡献均可以提高 HOI 检测的性能。

Mar, 2023

重新挖掘、学习和推理：探索跨模态语义相关性用于语言引导的 HOI 检测

通过结构化文本知识，我们提出了一个系统且统一的框架 (RmLR) 来提高人物 - 物体交互检测，通过分析相互作用信息的损失并生成更全面的视觉表示，设计了更精细的句子 - 词级对齐和知识传递策略以有效解决多个交互和多个文本之间的匹配问题，进而提高了对交互的理解。实验结果表明我们的方法在公共基准测试上实现了最先进的性能，并进一步分析了我们方法的各个组成部分对效果的影响，为其功效提供了洞察。

Jul, 2023

使用物体引导交叉模态校准语义检测人物与物体互动

该研究旨在增强终端到终端的 HOI 检测模型，具体实现方法是利用基于对象的统计先验知识并生成跨模态感知的视觉和语义特征，建立了一种基于对象的跨模态校准网络（OCN），结果显示其更好的动词预测能力和更强的利用先验知识的方法比起基于并行检测和动词分类预测模型有更高的准确性。

Feb, 2022