神经逻辑人 - 物体交互检测
该研究旨在解决人 - 物交互检测中的联合定位和分类问题,通过提出解耦三元组预测为人 - 物对检测和交互分类两个子任务来学习关注不同区域的表示,从而设计出 Disentangled Transformer,与现有 HOI transformers 相比,其方法在两个公共 HOI 基准测试中表现更佳。
Apr, 2022
HOI Transformer 是一种用于解决人与物体交互检测任务的算法,它可以通过全局图像上下文来推断物体与人的关系并在并行统一的方式下直接预测 HOI 实例,并引入了五元匹配损失来统一强制 HOI 预测,并能够在 HICO-DET 和 V-COCO 上取得比以前更好的性能表现。
Mar, 2021
本研究提出了一种名为 KI2HOI 的新型框架,用于有效整合视觉语言模型的知识,从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式,设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外,创新的交互表示解码器通过交叉注意机制,有效地提取信息丰富的区域。为了处理低数据中的零样本学习,利用 CLIP 文本编码器的先验知识,为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明,我们的模型在各种零样本和全监督设置上优于以前的方法。
Mar, 2024
在开放世界环境下,通过使用视觉语言(VL)基础模型和大型语言模型(LLMs),本研究探索了通用交互识别的方法,并通过进行深度分析和高级关系提取等设计,以实现超越现有方法的开放类别交互识别。
Nov, 2023
人物与物体的交互检测任务中,基于 Transformer 的方法显示出了显著的进展。然而,这些方法忽略了人物、物体和交互之间的关系,而我们提出了人物与物体解耦网络(HODN)来明确建模交互关系。我们的方法在 V-COCO 和 HICO-Det 数据集上取得了竞争性的性能,并且可以方便地与现有方法结合以获得最新的结果。
Aug, 2023
本文提出了一种基于 transformer 的编码器解码器框架,直接从图像中预测一组 <人,对象,交互> 三元组,通过此预测方法,我们的算法在不需要耗时的后处理的前提下,有效地利用图像中的固有语义关系,并实现了在对象检测后不到 1ms 的推理时间内,在两个 HOI 检测基准测试中实现了最新的性能。
Apr, 2021
本文介绍了一种通过利用有强监督和弱监督数据相结合的方法来进行人物物品交互检测的流程,并介绍了一种交换元素技术来增加模型的鲁棒性,在 HICO-DET 数据集上的表现比同一监督模式下的最先进的弱监督和强监督方法表现更好。
Nov, 2020
本文提出了一种名为交互图的图形交互推理模型,以推断人类和周围物体的相互作用,并构建了新的框架用于检测 HOIs,即 in-GraphNet,该模型能够有效地利用视觉目标间的交互语义,且不需要昂贵的注释,实验证明该方法在 V-COCO 和 HICO-DET 基准测试中比现有的 HOI 检测方法表现更优,基准线相对提高了 9.4% 和 15%。
Jul, 2020
人物 - 物体互动(HOI)检测是理解人类活动和视觉场景的重要组成部分。本研究通过引入 transformer-based 框架,重新组合不同 HOI 实例中的人物 - 物体对表示和互动表示,从而获得更丰富的上下文信息,提高知识的泛化能力,并实现一种简单而有效的方法,其在稀有 HOI 类别上表现出卓越的性能。
Aug, 2023