基于解缠的 Transformer 的人 - 物互动检测
HOI Transformer 是一种用于解决人与物体交互检测任务的算法,它可以通过全局图像上下文来推断物体与人的关系并在并行统一的方式下直接预测 HOI 实例,并引入了五元匹配损失来统一强制 HOI 预测,并能够在 HICO-DET 和 V-COCO 上取得比以前更好的性能表现。
Mar, 2021
本文提出了一种基于 transformer 的编码器解码器框架,直接从图像中预测一组 <人,对象,交互> 三元组,通过此预测方法,我们的算法在不需要耗时的后处理的前提下,有效地利用图像中的固有语义关系,并实现了在对象检测后不到 1ms 的推理时间内,在两个 HOI 检测基准测试中实现了最新的性能。
Apr, 2021
人物与物体的交互检测任务中,基于 Transformer 的方法显示出了显著的进展。然而,这些方法忽略了人物、物体和交互之间的关系,而我们提出了人物与物体解耦网络(HODN)来明确建模交互关系。我们的方法在 V-COCO 和 HICO-Det 数据集上取得了竞争性的性能,并且可以方便地与现有方法结合以获得最新的结果。
Aug, 2023
提出了一种用于人物 - 物体交互检测(DP-HOI)的有效分离预训练方法,通过利用目标检测和动作识别数据集预训练检测和交互解码器层,并结合图像级监督实现了有效的模型参数初始化,从而显著提高现有 HOI 检测模型在各种稀有类别上的性能。
Apr, 2024
使用神经逻辑推理和 Transformer 来推断实体之间的可行互动,通过改进 Transformer 的自注意机制,使用逻辑约束学习过程,提高性能和零样本泛化能力。
Nov, 2023
在本论文中,我们提出了基于一种二步检测器 ——Unary-Pairwise Transformer,它利用 HOIs 的一元和二元表示,通过使用与 DETR 相同的 Transformer 来训练,我们发现在相同的 Transformer 下,使用二步检测器比使用一步检测器可以提高预测性能和减少训练时间。我们在 HICO-DET 和 V-COCO 数据集上进行了评估,并明显优于最先进的方法。在推理时间内,我们的模型通过使用 ResNet50 能够在单个 GPU 上实现实时性能。
Dec, 2021
通过引入 Shunted Cross-Attention(SCA)和 Interaction-aware Pose Estimation(IPE)等技术,本文对一阶段方法进行改进,使其能够提取出解开的互动表示,从而在两个基准测试上实现了最先进的性能。
Dec, 2023
人物 - 物体互动(HOI)检测是理解人类活动和视觉场景的重要组成部分。本研究通过引入 transformer-based 框架,重新组合不同 HOI 实例中的人物 - 物体对表示和互动表示,从而获得更丰富的上下文信息,提高知识的泛化能力,并实现一种简单而有效的方法,其在稀有 HOI 类别上表现出卓越的性能。
Aug, 2023
文章介绍了 GTNet 模型,一种基于自注重的引导变换网络,它通过自注重将人和物体的视觉特征编码为空间上下文信息,从而增强了对人 - 物体交互的理解和检测。
Aug, 2021
以 Transformer 架构为基础的统一一步模型 SG2HOI + 同时实现了场景图生成和人物对象互动检测,在视觉特征的基础上生成关系三元组,并基于此预测人物对象互动,实现了显著的性能提升,超过了现有单阶段场景图生成模型和最先进的人物对象互动方法。
Nov, 2023