Gazeformer: 可扩展、有效、快速预测目标导向的人类注意力

CVPRMar, 2023

Gazeformer: 可扩展、有效、快速预测目标导向的人类注意力

Gazeformer: Scalable, Effective and Fast Prediction of Goal-Directed Human Attention

Sounak Mondal, Zhibo Yang, Seoyoung Ahn, Dimitris Samaras, Gregory Zelinsky...

TL;DR本文提出了一个名为 ZeroGaze 的新任务，即预测未曾搜索过的物体的视线，并开发了一种新的模型 Gazeformer，该模型在 Scanpath 预测中利用语义相似性，采用基于变压器的编码器 - 解码器架构，并在 ZeroGaze 设置中表现出明显优越性，同时在标准视觉搜索任务中比现有模型更快。

Abstract

Predicting human gaze is important in human-computer interaction (HCI). However, to practically serve HCI applications, gaze prediction models must be scalable, fast, and accurate in their spatial and temporal ga

gaze prediction human-computer interaction zerogaze scanpath prediction transformer-based encoder-decoder

发现论文，激发创造

目标感知的凝视目标检测

该研究使用基于 Transformer 的架构自动检测图像中的对象，并建立对象与注视的关联，从而实现全面的、可解释的注视分析，包括注视目标区域、注视像素点、被注视对象的类别和图像位置。该方法在各项指标上均取得了最新的成果，对于注视目标检测提高了 AUC 的达到 2.91%、注视距离减少了 50%、注视对象分类和定位平均精度提高了 11-13%，且代码可在链接中获得。

Jul, 2023

基于 Transformer 的人类注视行为在视频中的预测模型

基于眼动追踪数据的视频分析自动化是一个重要的任务。本文提出了一种基于转换器增强学习算法的模拟人类视线行为的新方法，通过观看视频并模拟人类注视行为，该方法能有效地复制人类注视行为并应用于实际任务。

Apr, 2024

EyeFormer：使用 Transformer 引导的强化学习预测个性化扫描路径

通过使用 Transformer 模型和深度强化学习算法，我们提出了 EyeFormer 模型，可以预测个体用户的视觉扫描路径，并在图形用户界面布局优化等方面有广泛应用。

Apr, 2024

Sharingan：一种基于 Transformer 的注视跟踪架构

面部注视是人类从小培养起来的一种强大的非语言交流和社交互动方式。因此，对这种行为进行建模是一项重要任务，可以造福于从机器人学到社会学等广泛领域。本文介绍了一种基于变换器的二维注视预测架构，通过两个变种进行实验，并取得了在 GazeFollow 和 VideoAttentionTarget 数据集上的最新成果。

Oct, 2023

从观察者注视中学习：基于人物 - 物体交互识别的零样本注意预测

在这项研究中，我们首先收集了一个名为 IG 的新型凝视固定点数据集，包括来自 740 个不同的互动类别的 53 万个凝视固定点，捕捉到人类观察者在认知互动过程中的视觉注意。然后，我们引入了零样本的面向互动注意力预测任务 ZeroIA，通过挑战模型在训练过程中未遇到的互动中预测视觉线索。我们提出了交互式注意力模型 IA，旨在模拟人类观察者的认知过程来解决 ZeroIA 问题。大量的实验表明，所提出的 IA 模型在 ZeroIA 和完全监督的环境中都优于其他最先进的方法。最后，我们努力将面向互动注意力应用于互动识别任务本身，并通过利用来自 IG 的真实人类注意力数据和由 IA 生成的注意力标签来提高现有最先进的 HOI 模型的性能和可解释性。

May, 2024

GaTector：注视物体预测的统一框架

本研究提出了一种名为 GaTector 的新型框架，它使用了一个特定 - 通用 - 特定的特征提取器，并引入了能量聚合损失和 wUoC 度量标准，以在统一的框架下解决凝视目标预测问题。实验证明，该方法在目标检测、凝视估计和凝视对象预测三个任务中都具有优异的性能。

Dec, 2021

无目标人类注意力

本文提出了一种基于 FFMs 的数据驱动计算模型，用于解决人类搜索终止问题以及预测在图像中搜索不存在目标时人们的扫描路径，通过将 FFMs 集成为状态表示在逆强化学习中将其作为方法，实验结果在 COCO-Search18 数据集上提高了目标缺失搜索行为的预测水平。

Jul, 2022

多人时间性目光跟踪和社交目光预测的新框架

本文介绍了一种新的框架，用于联合预测场景中所有人的凝视目标和社交凝视标签，通过使用包含图像特征和个体的凝视信息的时间变换器，以及一个新的数据集 VSGaze，该模型在 VSGaze 上的训练取得了多人凝视跟踪和社交凝视预测的最新成果。

Mar, 2024

ViTGaze：视觉 Transformer 中的交互特征目光追踪

基于 Vision Transformers 和自注意力机制，我们提出了一种新的单模态注视跟踪框架 ViTGaze，通过人 - 场景间的信息交互提高了性能，达到了最先进的性能水平。

Mar, 2024

基于 Transformer 的端到端人眼凝视目标检测

我们提出了一种名为 HGTTR 的方法，它可以在同时检测人类头部位置和目标注视物，在全局图像背景下推导关于显著对象与人眼注视之间的关系，这种方法不仅比现有的基于两阶段方法在性能上更好，而且可以在端到端的方式下直接预测所有人的头部位置和目标注视物。

Mar, 2022