人 - 物交互分类的类别查询学习
本篇论文介绍了一种利用类别感知信息初始化对象查询提升变压器基础 HOI 检测器性能的方法,即 Category-Aware Transformer Network (CATN),并通过验证实验和大量实验表明,该方法可以显著提高 HOI 检测器的性能,从而实现新的最先进结果。
Apr, 2022
本研究提出了一种名为 KI2HOI 的新型框架,用于有效整合视觉语言模型的知识,从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式,设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外,创新的交互表示解码器通过交叉注意机制,有效地提取信息丰富的区域。为了处理低数据中的零样本学习,利用 CLIP 文本编码器的先验知识,为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明,我们的模型在各种零样本和全监督设置上优于以前的方法。
Mar, 2024
提出了一种基于 transformer 的特征提取器,其中关注机制和基于查询的检测起着关键作用,可以避免多个 HOI 实例的特征混合,有效提取上下文重要特征,优于现有方法。
Mar, 2021
提出了一种新的端到端类到场景框架 (CATS),通过分别生成各个类别的几何特征,随后将其与对应的视觉特征融合,构建一个包含增强的几何 - 视觉特征的场景交互图,以学习人与物体类别之间的关系。该方法在两个关键的人物 - 物体交互基准测试 (MPHOI-72 和 CAD-120) 中展示了最先进的性能。
Jul, 2024
HOI Transformer 是一种用于解决人与物体交互检测任务的算法,它可以通过全局图像上下文来推断物体与人的关系并在并行统一的方式下直接预测 HOI 实例,并引入了五元匹配损失来统一强制 HOI 预测,并能够在 HICO-DET 和 V-COCO 上取得比以前更好的性能表现。
Mar, 2021
人物 - 物体互动(HOI)检测是理解人类活动和视觉场景的重要组成部分。本研究通过引入 transformer-based 框架,重新组合不同 HOI 实例中的人物 - 物体对表示和互动表示,从而获得更丰富的上下文信息,提高知识的泛化能力,并实现一种简单而有效的方法,其在稀有 HOI 类别上表现出卓越的性能。
Aug, 2023
本文探讨了人 - 物体交互检测的两个挑战:类别不平衡和每图像多标签需求的有效解决方法,分别是通过对比分析 HOIs 语言嵌入来初始化权重和使用 LSE-Sign 损失加强多标签学习,从而实现了无需依赖物体检测和人体姿势检测的 HOI 分类,在集成现有物体检测模型后,达到了最先进的检测结果。
Dec, 2021
该研究旨在解决人 - 物交互检测中的联合定位和分类问题,通过提出解耦三元组预测为人 - 物对检测和交互分类两个子任务来学习关注不同区域的表示,从而设计出 Disentangled Transformer,与现有 HOI transformers 相比,其方法在两个公共 HOI 基准测试中表现更佳。
Apr, 2022
本文提出了一种基于全卷积的去检测人 - 物交互的新方法,该方法利用相互作用点直接定位和分类相互作用,并结合密集的相互作用向量,将相互作用与人和物的检测相结合,以获得最终的预测结果。该方法在 V-COCO 和 HICO-DET 两个常用基准上均取得了最新的最佳表现。
Mar, 2020
本文介绍了一种使用图像级别交互标签和预训练的视觉语言模型和大型语言模型在文献中最弱的监督设置下来处理 HOI 检测的方法,该方法包括修剪非交互式人和物体建议来提高袋内正例对的质量、查询特定人类和对象类别之间可能的交互以强制模型不要强调不太可能的交互,以及使用辅助弱监督的介词预测任务来使模型明确地推理空间。实验显示,所有贡献均可以提高 HOI 检测的性能。
Mar, 2023