基于先验指导的双层表示学习的弱监督 HOI 检测
该研究提出了一种基于 CLIP 的 HOI 检测框架,通过交互解码器、知识融合块和文本编码器等模块从 CLIP 中高效地提取先验知识并实现更准确的 HOI 检测,同时建立动词分类器和利用全局 HOI 预测进行训练无关的增强,相较当前最先进方法在 HICO-Det 数据集上提高了 4.04 mAP。
Mar, 2023
本文介绍了一种通过利用有强监督和弱监督数据相结合的方法来进行人物物品交互检测的流程,并介绍了一种交换元素技术来增加模型的鲁棒性,在 HICO-DET 数据集上的表现比同一监督模式下的最先进的弱监督和强监督方法表现更好。
Nov, 2020
本文研究了零样本的人 - 物互动检测任务,采用了 CLIP 作为知识蒸馏的大规模预训练视觉 - 语言模型,在全局图像、局部区域和个体实例级别上学习人 - 物互动表示,并通过 CLIP 生成互动得分作为监督信号进行模型训练,在公共 HICO-DET 基准测试中取得了强大的性能。
Sep, 2023
本文介绍了一种使用图像级别交互标签和预训练的视觉语言模型和大型语言模型在文献中最弱的监督设置下来处理 HOI 检测的方法,该方法包括修剪非交互式人和物体建议来提高袋内正例对的质量、查询特定人类和对象类别之间可能的交互以强制模型不要强调不太可能的交互,以及使用辅助弱监督的介词预测任务来使模型明确地推理空间。实验显示,所有贡献均可以提高 HOI 检测的性能。
Mar, 2023
本研究提出了一种名为 KI2HOI 的新型框架,用于有效整合视觉语言模型的知识,从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式,设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外,创新的交互表示解码器通过交叉注意机制,有效地提取信息丰富的区域。为了处理低数据中的零样本学习,利用 CLIP 文本编码器的先验知识,为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明,我们的模型在各种零样本和全监督设置上优于以前的方法。
Mar, 2024
ISA-HOI 是一种新颖的 HOI 探测器,它广泛利用了 CLIP 的知识,通过对视觉和文本特征之间的交互语义进行对齐,提取图像的全局上下文和物体的局部特征来改善图像中的交互特征,并且通过跨模态融合提高动词标签的文本特征,最终在较少的训练时期内在 HICO-DET 和 V-COCO 基准上取得了竞争性的结果,并在零样本设置下超越了最先进的方法。
Apr, 2024
本文提出了一种基于全卷积的去检测人 - 物交互的新方法,该方法利用相互作用点直接定位和分类相互作用,并结合密集的相互作用向量,将相互作用与人和物的检测相结合,以获得最终的预测结果。该方法在 V-COCO 和 HICO-DET 两个常用基准上均取得了最新的最佳表现。
Mar, 2020
在计算机视觉中,我们通过介绍一种新的深度神经网络 (HO-RCNN) 和一种新的输入特征(交互模式),解决了人 - 物目标交互检测(HOI)的基本问题,并在当前的 HICO 分类基准上引入实例注释,大大提高了 HOI 检测的性能。
Feb, 2017
本文提出了一种自适应 HOI 检测器,利用预训练模型并在长尾标记数据上进行训练,可有效地定位和推断人与物体之间的关系。该方法在 HICO-DET 和 V-COCO 数据集上获得了与最先进方法竞争力相当的结果,训练时间更短。
Sep, 2023
本文探讨了人 - 物体交互检测的两个挑战:类别不平衡和每图像多标签需求的有效解决方法,分别是通过对比分析 HOIs 语言嵌入来初始化权重和使用 LSE-Sign 损失加强多标签学习,从而实现了无需依赖物体检测和人体姿势检测的 HOI 分类,在集成现有物体检测模型后,达到了最先进的检测结果。
Dec, 2021