本文提出了一种基于全卷积的去检测人 - 物交互的新方法,该方法利用相互作用点直接定位和分类相互作用,并结合密集的相互作用向量,将相互作用与人和物的检测相结合,以获得最终的预测结果。该方法在 V-COCO 和 HICO-DET 两个常用基准上均取得了最新的最佳表现。
Mar, 2020
通过结构化文本知识,我们提出了一个系统且统一的框架 (RmLR) 来提高人物 - 物体交互检测,通过分析相互作用信息的损失并生成更全面的视觉表示,设计了更精细的句子 - 词级对齐和知识传递策略以有效解决多个交互和多个文本之间的匹配问题,进而提高了对交互的理解。实验结果表明我们的方法在公共基准测试上实现了最先进的性能,并进一步分析了我们方法的各个组成部分对效果的影响,为其功效提供了洞察。
Jul, 2023
该研究探索了基于人体姿态、注视和距离等因素实现社交场景下人和物体之间相互作用识别的方法,并针对误分类问题提出硬负样本采样策略。在两个基准数据集,即 V-COCO 和 HICO-DET 上进行实验并验证了各个组件的有效性。
Aug, 2018
在计算机视觉中,我们通过介绍一种新的深度神经网络 (HO-RCNN) 和一种新的输入特征(交互模式),解决了人 - 物目标交互检测(HOI)的基本问题,并在当前的 HICO 分类基准上引入实例注释,大大提高了 HOI 检测的性能。
Feb, 2017
本文介绍了一种通过利用有强监督和弱监督数据相结合的方法来进行人物物品交互检测的流程,并介绍了一种交换元素技术来增加模型的鲁棒性,在 HICO-DET 数据集上的表现比同一监督模式下的最先进的弱监督和强监督方法表现更好。
Nov, 2020
研究人体与物体互动关系,通过使用一个可学习的 Interactiveness Network,学习 HOI 数据集的互动知识,从而实现在 HOI 分类推理之前进行非交互抑制,并在 HICO-DET 和 V-COCO 数据集上验证了方法的有效性和灵活性。
Nov, 2018
本研究提出了一种名为 KI2HOI 的新型框架,用于有效整合视觉语言模型的知识,从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式,设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外,创新的交互表示解码器通过交叉注意机制,有效地提取信息丰富的区域。为了处理低数据中的零样本学习,利用 CLIP 文本编码器的先验知识,为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明,我们的模型在各种零样本和全监督设置上优于以前的方法。
Mar, 2024
我们介绍了一种用于分析现有 HOI 检测模型错误源的诊断工具箱,通过修复错误并测量 mAP 改进来详细分析不同错误的重要性。
Aug, 2023
本文提出了一种基于人与物体功能相似性的人类 - 物体交互检测方法,使用视觉特征、人类和物体之间的相对空间方向和功能相似物体参与相似交互的知识。在 HOI 数据集上,该方法在平均精度方面的绝对增益为 2.5%,并且在已知物体情况下实现了零样本 HOI 检测和广义物体检测。
Apr, 2019
本文研究了人物和物体间的交互行为,发现交互知识可以跨越不同的数据集,形成通用的交互知识网络,并且可以与任何 HOI 检测模型合作,进而提高 HOI 检测效率和准确性。通过使用实例和人体部位的特征信息,本文还提出了一种层次化的交互知识获取方法,同时采用一致性任务深度提取可视化线索。在 HICO-DET、V-COCO 和 PaStaNet-HOI 数据集上的实验结果表明,该方法优于现有的 HOI 检测方法。
Jan, 2021