GaTector:注视物体预测的统一框架
该研究使用基于 Transformer 的架构自动检测图像中的对象,并建立对象与注视的关联,从而实现全面的、可解释的注视分析,包括注视目标区域、注视像素点、被注视对象的类别和图像位置。该方法在各项指标上均取得了最新的成果,对于注视目标检测提高了 AUC 的达到 2.91%、注视距离减少了 50%、注视对象分类和定位平均精度提高了 11-13%,且代码可在链接中获得。
Jul, 2023
该论文提出了一种高效有效的联合注视位置检测(GL-D)和注视对象检测(GO-D)方法,通过统一的单阶段流水线同时检测人类注视位置和注视对象,实现了全面端到端的联合,进一步提高准确率。
Aug, 2023
该研究介绍了一种基于 Transformer 的注视对象预测方法 TransGOP,该方法利用 Transformer 进行对象检测和建立远距离注视关系,采用对象到注视的交叉注意力机制来改善注视热图回归,并通过注视框损失实现整体框架的端到端训练。实验证明 TransGOP 在目标检测、注视估计和注视对象预测的所有任务上均取得了最先进的性能。
Feb, 2024
本文提出了一个名为 ZeroGaze 的新任务,即预测未曾搜索过的物体的视线,并开发了一种新的模型 Gazeformer,该模型在 Scanpath 预测中利用语义相似性,采用基于变压器的编码器 - 解码器架构,并在 ZeroGaze 设置中表现出明显优越性,同时在标准视觉搜索任务中比现有模型更快。
Mar, 2023
我们提出了一种名为 HGTTR 的方法,它可以在同时检测人类头部位置和目标注视物,在全局图像背景下推导关于显著对象与人眼注视之间的关系,这种方法不仅比现有的基于两阶段方法在性能上更好,而且可以在端到端的方式下直接预测所有人的头部位置和目标注视物。
Mar, 2022
本文介绍了一种新的框架,用于联合预测场景中所有人的凝视目标和社交凝视标签,通过使用包含图像特征和个体的凝视信息的时间变换器,以及一个新的数据集 VSGaze,该模型在 VSGaze 上的训练取得了多人凝视跟踪和社交凝视预测的最新成果。
Mar, 2024
本文提出了一种基于人类凝视追踪思路的两阶段解决方案,集成了神经网络和数据集,有效地预测并追踪目标人物的目光方向,且经过大量实验证明,该方案相对于现有解决方案有明显优势。
Jul, 2019
介绍了一项名为 "注视物体预测" 的新任务,旨在预测人类注视的物体的边界框。为了在此任务上训练和评估注视网络,提出了一个名为 Gaze On Objects (GOO) 数据集,由一个大型的合成图像数据集 (GOO Synth) 和少量的真实图像数据集 (GOO-Real) 组成,在零标注物体的情况下,通过对目标检测技术的引入,实现了注视目标物体的预测和估计。
May, 2021
本文提出了一种使用多模态线索,采用注意机制的模块化架构,以检测观察者线路中的障碍物并应用关注优先级,从而更好地实现识别和利用先验知识的方法,并在 GazeFollow 和 VideoAttentionTarget 公共数据集上展示了最先进的性能和隐私保护的竞争结果。
Jul, 2023
我们提出了一种端到端的方法来检测凝视目标:预测个体和他们正在注视的目标图像区域之间的头目标连接。我们的实验结果表明,GazeHTA 在两个标准数据集上优于最先进的凝视目标检测方法和两个改进的基于扩散的基准模型。
Apr, 2024