CVPRApr, 2021

基于 Transformer 的端到端人 - 物交互检测

TL;DR本文提出了一种基于 transformer 的编码器解码器框架,直接从图像中预测一组 <人,对象,交互> 三元组,通过此预测方法,我们的算法在不需要耗时的后处理的前提下,有效地利用图像中的固有语义关系,并实现了在对象检测后不到 1ms 的推理时间内,在两个 HOI 检测基准测试中实现了最新的性能。