联合注视位置与注视物体检测
我们提出了一种名为 HGTTR 的方法,它可以在同时检测人类头部位置和目标注视物,在全局图像背景下推导关于显著对象与人眼注视之间的关系,这种方法不仅比现有的基于两阶段方法在性能上更好,而且可以在端到端的方式下直接预测所有人的头部位置和目标注视物。
Mar, 2022
该研究使用基于 Transformer 的架构自动检测图像中的对象,并建立对象与注视的关联,从而实现全面的、可解释的注视分析,包括注视目标区域、注视像素点、被注视对象的类别和图像位置。该方法在各项指标上均取得了最新的成果,对于注视目标检测提高了 AUC 的达到 2.91%、注视距离减少了 50%、注视对象分类和定位平均精度提高了 11-13%,且代码可在链接中获得。
Jul, 2023
该研究介绍了一种基于 Transformer 的注视对象预测方法 TransGOP,该方法利用 Transformer 进行对象检测和建立远距离注视关系,采用对象到注视的交叉注意力机制来改善注视热图回归,并通过注视框损失实现整体框架的端到端训练。实验证明 TransGOP 在目标检测、注视估计和注视对象预测的所有任务上均取得了最先进的性能。
Feb, 2024
本研究提出了一种名为 GaTector 的新型框架,它使用了一个特定 - 通用 - 特定的特征提取器,并引入了能量聚合损失和 wUoC 度量标准,以在统一的框架下解决凝视目标预测问题。实验证明,该方法在目标检测、凝视估计和凝视对象预测三个任务中都具有优异的性能。
Dec, 2021
本文提出了一种基于人类凝视追踪思路的两阶段解决方案,集成了神经网络和数据集,有效地预测并追踪目标人物的目光方向,且经过大量实验证明,该方案相对于现有解决方案有明显优势。
Jul, 2019
我们介绍了第一个注视引导的手 - 物体交互数据集,并提出了一个新颖的注视引导的手 - 物体交互综合任务。我们的数据集 GazeHOI 通过同时建模注视、手和物体的交互,包含 479 个序列,平均持续时间为 19.1 秒,812 个子序列和 33 个具有不同大小的物体。我们提出了一个基于注视引导的手 - 物体交互扩散模型 GHO-Diffusion 的分层框架。我们的广泛实验突出了数据集的独特性及我们方法的有效性。
Mar, 2024
提出一种效率更高的视觉 Transformer 模型,命名为 Glance-and-Gaze Transformer (GG-Transformer),其通过两个并行的分支 ——Glance 和 Gaze,分别实现自适应扩张分区的自注意力机制与简单深度卷积层的局部图像上下文补偿,从而实现长距离依赖性和局部区域信息的高效建模,在多个视觉任务和基准测试中都表现出了优秀的性能。
Jun, 2021
本文提出了一个名为 ZeroGaze 的新任务,即预测未曾搜索过的物体的视线,并开发了一种新的模型 Gazeformer,该模型在 Scanpath 预测中利用语义相似性,采用基于变压器的编码器 - 解码器架构,并在 ZeroGaze 设置中表现出明显优越性,同时在标准视觉搜索任务中比现有模型更快。
Mar, 2023
面部注视是人类从小培养起来的一种强大的非语言交流和社交互动方式。因此,对这种行为进行建模是一项重要任务,可以造福于从机器人学到社会学等广泛领域。本文介绍了一种基于变换器的二维注视预测架构,通过两个变种进行实验,并取得了在 GazeFollow 和 VideoAttentionTarget 数据集上的最新成果。
Oct, 2023