ConsNet: 学习一致性图以用于零样本人 - 物交互检测
本文提出了一种名为交互图的图形交互推理模型,以推断人类和周围物体的相互作用,并构建了新的框架用于检测 HOIs,即 in-GraphNet,该模型能够有效地利用视觉目标间的交互语义,且不需要昂贵的注释,实验证明该方法在 V-COCO 和 HICO-DET 基准测试中比现有的 HOI 检测方法表现更优,基准线相对提高了 9.4% 和 15%。
Jul, 2020
本研究提出了一种名为 KI2HOI 的新型框架,用于有效整合视觉语言模型的知识,从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式,设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外,创新的交互表示解码器通过交叉注意机制,有效地提取信息丰富的区域。为了处理低数据中的零样本学习,利用 CLIP 文本编码器的先验知识,为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明,我们的模型在各种零样本和全监督设置上优于以前的方法。
Mar, 2024
本研究提出了一种基于视觉 - 语言知识蒸馏的全新的端到端零样本人 - 物交互检测 (EoID) 框架,旨在通过利用看到和看不到人 - 物交互之间的联系,发现潜在的人 - 物交互并识别出新的人 - 物交互类别,实现未知类别的人 - 物交互检测。大量实验结果表明,该模型不仅能够在 HICO-Det 数据集上具体实现,而且在相关指标上表现卓越,具有很好的实用价值。
Apr, 2022
提出了一种利用场景图信息进行人 - 物交互(SG2HOI)检测的新方法,该方法通过全局背景信息和关系感知信息传递模块,利用图像中高级和语义的人物和物体关系,通过两种方式将场景图信息融入到 “人 - 物交互” 检测任务中,表现优于两个基准 HOI 数据集上的最新方法。
Aug, 2021
人物 - 物体互动(HOI)检测是理解人类活动和视觉场景的重要组成部分。本研究通过引入 transformer-based 框架,重新组合不同 HOI 实例中的人物 - 物体对表示和互动表示,从而获得更丰富的上下文信息,提高知识的泛化能力,并实现一种简单而有效的方法,其在稀有 HOI 类别上表现出卓越的性能。
Aug, 2023
本文提出一种基于异构图网络的目标与人交互检测方法,通过将人和物体建模为不同种类的节点,利用节点之间的内部关联信息和跨类别信息,再利用图注意力机制提升学习效果,实验表明内部关系和跨类别信息对于目标与人交互检测非常重要,并证实了模型的有效性。
Oct, 2020
在计算机视觉中,我们通过介绍一种新的深度神经网络 (HO-RCNN) 和一种新的输入特征(交互模式),解决了人 - 物目标交互检测(HOI)的基本问题,并在当前的 HICO 分类基准上引入实例注释,大大提高了 HOI 检测的性能。
Feb, 2017
本文研究了人物和物体间的交互行为,发现交互知识可以跨越不同的数据集,形成通用的交互知识网络,并且可以与任何 HOI 检测模型合作,进而提高 HOI 检测效率和准确性。通过使用实例和人体部位的特征信息,本文还提出了一种层次化的交互知识获取方法,同时采用一致性任务深度提取可视化线索。在 HICO-DET、V-COCO 和 PaStaNet-HOI 数据集上的实验结果表明,该方法优于现有的 HOI 检测方法。
Jan, 2021
本文介绍了一种利用结构化知识实现可微分端到端检测和识别图像和视频中的人 - 物交互的算法 —— 图解析神经网络(GPNN)。结果表明,在三个 HOI 检测基准测试上,我们的方法明显优于现有的最新方法,证明 GPNN 可以应用于大型数据集和时空设置,并可覆盖图解析和逐步计算相邻矩阵和节点标签。
Aug, 2018