CVPRMar, 2022

基于 Transformer 的端到端人眼凝视目标检测

TL;DR我们提出了一种名为 HGTTR 的方法,它可以在同时检测人类头部位置和目标注视物,在全局图像背景下推导关于显著对象与人眼注视之间的关系,这种方法不仅比现有的基于两阶段方法在性能上更好,而且可以在端到端的方式下直接预测所有人的头部位置和目标注视物。