人物 - 物体交互检测的可视化组成学习
提出了一种基于组合学习的人与物体交互检测方法,使用对象生成器生成有效的对象表示,并结合动词和生成的对象创作新的 HOI 样本,以缓解 HOI 检测中的长尾问题, 实验表明此方法在稀有和未见 HOI 类别方面具有卓越的性能
Mar, 2021
人物 - 物体互动(HOI)检测是理解人类活动和视觉场景的重要组成部分。本研究通过引入 transformer-based 框架,重新组合不同 HOI 实例中的人物 - 物体对表示和互动表示,从而获得更丰富的上下文信息,提高知识的泛化能力,并实现一种简单而有效的方法,其在稀有 HOI 类别上表现出卓越的性能。
Aug, 2023
本研究提出了一个人 - 物交互全面了解的新任务,称为 HOI Concept Discovery,并针对该任务设计了自组合学习框架(或 SCL),该方法可以使学习在已知和未知的 HOI 概念上进行,并在多个数据集上展示了良好的效果。
Mar, 2022
本研究提出了一种名为 KI2HOI 的新型框架,用于有效整合视觉语言模型的知识,从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式,设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外,创新的交互表示解码器通过交叉注意机制,有效地提取信息丰富的区域。为了处理低数据中的零样本学习,利用 CLIP 文本编码器的先验知识,为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明,我们的模型在各种零样本和全监督设置上优于以前的方法。
Mar, 2024
本文提出了一种基于虚拟图像学习的方法来解决人 - 物交互检测任务中类别分布不平衡的问题,通过借助虚拟图像和真实图像训练模型,构建伪标签以及结合现有方法进行训练,取得了显著改进并实现了新的最先进结果。
Aug, 2023
该研究提出了一种基于 CLIP 的 HOI 检测框架,通过交互解码器、知识融合块和文本编码器等模块从 CLIP 中高效地提取先验知识并实现更准确的 HOI 检测,同时建立动词分类器和利用全局 HOI 预测进行训练无关的增强,相较当前最先进方法在 HICO-Det 数据集上提高了 4.04 mAP。
Mar, 2023
本文提出了一种基于 HOI 分析的方法来学习人 - 物交互,该方法能够将关联的 HOI 分解成独立的人和物进行集成和分解,并通过转换功能空间来表示隐式操作。通过提出的 Integration-Decomposition 网络,在广泛使用的 HOI 检测基准测试中实现了最先进的性能。
Oct, 2020
ISA-HOI 是一种新颖的 HOI 探测器,它广泛利用了 CLIP 的知识,通过对视觉和文本特征之间的交互语义进行对齐,提取图像的全局上下文和物体的局部特征来改善图像中的交互特征,并且通过跨模态融合提高动词标签的文本特征,最终在较少的训练时期内在 HICO-DET 和 V-COCO 基准上取得了竞争性的结果,并在零样本设置下超越了最先进的方法。
Apr, 2024
本文提出了一种基于全卷积的去检测人 - 物交互的新方法,该方法利用相互作用点直接定位和分类相互作用,并结合密集的相互作用向量,将相互作用与人和物的检测相结合,以获得最终的预测结果。该方法在 V-COCO 和 HICO-DET 两个常用基准上均取得了最新的最佳表现。
Mar, 2020
在计算机视觉中,我们通过介绍一种新的深度神经网络 (HO-RCNN) 和一种新的输入特征(交互模式),解决了人 - 物目标交互检测(HOI)的基本问题,并在当前的 HICO 分类基准上引入实例注释,大大提高了 HOI 检测的性能。
Feb, 2017