使用物体引导交叉模态校准语义检测人物与物体互动

AAAIFeb, 2022

使用物体引导交叉模态校准语义检测人物与物体互动

Detecting Human-Object Interactions with Object-Guided Cross-Modal Calibrated Semantics

Hangjie Yuan, Mang Wang, Dong Ni, Liangpeng Xu

TL;DR该研究旨在增强终端到终端的 HOI 检测模型，具体实现方法是利用基于对象的统计先验知识并生成跨模态感知的视觉和语义特征，建立了一种基于对象的跨模态校准网络（OCN），结果显示其更好的动词预测能力和更强的利用先验知识的方法比起基于并行检测和动词分类预测模型有更高的准确性。

Abstract

human-object interaction (HOI) detection is an essential task to understand human-centric images from a fine-grained perspective. Although end-to-end HOI detection models thrive, their paradigm of parallel human/object detection and verb class prediction loses two-stage methods' merit:

human-object interaction hoi detection object-guided hierarchy verb semantic model cross-modal calibration

发现论文，激发创造

通过视觉语言集成实现零样本人 - 物体交互检测

本研究提出了一种名为 KI2HOI 的新型框架，用于有效整合视觉语言模型的知识，从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式，设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外，创新的交互表示解码器通过交叉注意机制，有效地提取信息丰富的区域。为了处理低数据中的零样本学习，利用 CLIP 文本编码器的先验知识，为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明，我们的模型在各种零样本和全监督设置上优于以前的方法。

Mar, 2024

重新挖掘、学习和推理：探索跨模态语义相关性用于语言引导的 HOI 检测

通过结构化文本知识，我们提出了一个系统且统一的框架 (RmLR) 来提高人物 - 物体交互检测，通过分析相互作用信息的损失并生成更全面的视觉表示，设计了更精细的句子 - 词级对齐和知识传递策略以有效解决多个交互和多个文本之间的匹配问题，进而提高了对交互的理解。实验结果表明我们的方法在公共基准测试上实现了最先进的性能，并进一步分析了我们方法的各个组成部分对效果的影响，为其功效提供了洞察。

Jul, 2023

探索基于交互语义对齐的高效视觉语言模型 HOI 检测方法

ISA-HOI 是一种新颖的 HOI 探测器，它广泛利用了 CLIP 的知识，通过对视觉和文本特征之间的交互语义进行对齐，提取图像的全局上下文和物体的局部特征来改善图像中的交互特征，并且通过跨模态融合提高动词标签的文本特征，最终在较少的训练时期内在 HICO-DET 和 V-COCO 基准上取得了竞争性的结果，并在零样本设置下超越了最先进的方法。

Apr, 2024

基于概念引导记忆的高效自适应人 - 物交互检测

本文提出了一种自适应 HOI 检测器，利用预训练模型并在长尾标记数据上进行训练，可有效地定位和推断人与物体之间的关系。该方法在 HICO-DET 和 V-COCO 数据集上获得了与最先进方法竞争力相当的结果，训练时间更短。

Sep, 2023

探索大型基础模型在开放词汇 HOI 检测中的潜力

通过引入条件多级解码和细粒度语义增强（CMD-SE）的新型端到端开放词汇 HOI 检测框架，利用视觉 - 语言模型 (VLMs)，本研究模拟不同距离的人 - 物对的不同特征图级别，进一步利用大型语言模型（LLMs）生成人体部位状态的描述，以改进人体与物体的交互识别，并在 SWIG-HOI 和 HICO-DET 两个数据集上取得了领先的开放词汇 HOI 检测结果。

Apr, 2024

人物 - 物体交互检测的可视化组成学习

本论文提出了一种深度可视化组合学习 (VCL) 框架，通过分解和组合 HOI 表示来解决 HOI 检测中的长尾分布问题，共享不同 HOI 样本和图像之间的对象和谓词特征，并生成新的交互样本和新类型的 HOI，从而显著缓解了低样本或零样本的 HOI 检测问题。在 HICO-DET 和 V-COCO 数据集上的实验证明了该方法的有效性，并且在 HICO-DET 上优于最新的最优方法。

Jul, 2020

HOICLIP：基于视觉 - 语言模型的高阶交互动作识别知识迁移方法

该研究提出了一种基于 CLIP 的 HOI 检测框架，通过交互解码器、知识融合块和文本编码器等模块从 CLIP 中高效地提取先验知识并实现更准确的 HOI 检测，同时建立动词分类器和利用全局 HOI 预测进行训练无关的增强，相较当前最先进方法在 HICO-Det 数据集上提高了 4.04 mAP。

Mar, 2023

通过大型视觉语言模型生成面向人物 - 物体交互检测的人类中心视觉线索

在这篇论文中，我们提出了三个用于生成图像中的人类中心视觉线索的提示，并结合了多人的多视角来生成丰富的人类中心视觉线索，以用于人物 - 物体交互检测，我们的实验证明了利用这些生成的人类中心视觉线索进行交互检测的有效性，而我们提出的模型在两个广泛使用的数据集上的实验结果表明其在现有最先进方法上的优越性。

Nov, 2023

使用混合监督方法检测人与物体之间的交互

本文介绍了一种通过利用有强监督和弱监督数据相结合的方法来进行人物物品交互检测的流程，并介绍了一种交换元素技术来增加模型的鲁棒性，在 HICO-DET 数据集上的表现比同一监督模式下的最先进的弱监督和强监督方法表现更好。

Nov, 2020

人 - 物交互检测的视觉 - 语义图注意力网络

通过双图注意力网络，可以动态地从主要的人 - 物关系和附属关系中聚合环境视觉、空间和语义信息以实现强大的消岐能力。

Jan, 2020