基于 Transformer 的端到端人眼凝视目标检测

CVPRMar, 2022

基于 Transformer 的端到端人眼凝视目标检测

End-to-End Human-Gaze-Target Detection with Transformers

Danyang Tu, Xiongkuo Min, Huiyu Duan, Guodong Guo, Guangtao Zhai...

TL;DR我们提出了一种名为 HGTTR 的方法，它可以在同时检测人类头部位置和目标注视物，在全局图像背景下推导关于显著对象与人眼注视之间的关系，这种方法不仅比现有的基于两阶段方法在性能上更好，而且可以在端到端的方式下直接预测所有人的头部位置和目标注视物。

Abstract

In this paper, we propose an effective and efficient method for Human-Gaze-Target (HGT) detection, i.e., gaze following. Current approaches decouple the HGT detection task into separate branches of salient object detection and human gaze prediction, employing a two-stage framework wher

human-gaze-target detection gaze following salient object detection head location detection transformer

发现论文，激发创造

联合注视位置与注视物体检测

该论文提出了一种高效有效的联合注视位置检测（GL-D）和注视对象检测（GO-D）方法，通过统一的单阶段流水线同时检测人类注视位置和注视对象，实现了全面端到端的联合，进一步提高准确率。

Aug, 2023

目标感知的凝视目标检测

该研究使用基于 Transformer 的架构自动检测图像中的对象，并建立对象与注视的关联，从而实现全面的、可解释的注视分析，包括注视目标区域、注视像素点、被注视对象的类别和图像位置。该方法在各项指标上均取得了最新的成果，对于注视目标检测提高了 AUC 的达到 2.91%、注视距离减少了 50%、注视对象分类和定位平均精度提高了 11-13%，且代码可在链接中获得。

Jul, 2023

GazeHTA: 基于头部 - 目标关联的端到端凝视目标检测

我们提出了一种端到端的方法来检测凝视目标：预测个体和他们正在注视的目标图像区域之间的头目标连接。我们的实验结果表明，GazeHTA 在两个标准数据集上优于最先进的凝视目标检测方法和两个改进的基于扩散的基准模型。

Apr, 2024

信不信由你，我们知道你在看什么！

本文提出了一种基于人类凝视追踪思路的两阶段解决方案，集成了神经网络和数据集，有效地预测并追踪目标人物的目光方向，且经过大量实验证明，该方案相对于现有解决方案有明显优势。

Jul, 2019

基于 Transformer 的人类注视行为在视频中的预测模型

基于眼动追踪数据的视频分析自动化是一个重要的任务。本文提出了一种基于转换器增强学习算法的模拟人类视线行为的新方法，通过观看视频并模拟人类注视行为，该方法能有效地复制人类注视行为并应用于实际任务。

Apr, 2024

速览注视视觉变换器

提出一种效率更高的视觉 Transformer 模型，命名为 Glance-and-Gaze Transformer (GG-Transformer)，其通过两个并行的分支 ——Glance 和 Gaze，分别实现自适应扩张分区的自注意力机制与简单深度卷积层的局部图像上下文补偿，从而实现长距离依赖性和局部区域信息的高效建模，在多个视觉任务和基准测试中都表现出了优秀的性能。

Jun, 2021

ViTGaze：视觉 Transformer 中的交互特征目光追踪

基于 Vision Transformers 和自注意力机制，我们提出了一种新的单模态注视跟踪框架 ViTGaze，通过人 - 场景间的信息交互提高了性能，达到了最先进的性能水平。

Mar, 2024

GTNet: 指导 Transformer 网络用于检测人物 - 物体交互

文章介绍了 GTNet 模型，一种基于自注重的引导变换网络，它通过自注重将人和物体的视觉特征编码为空间上下文信息，从而增强了对人 - 物体交互的理解和检测。

Aug, 2021

GaTector：注视物体预测的统一框架

本研究提出了一种名为 GaTector 的新型框架，它使用了一个特定 - 通用 - 特定的特征提取器，并引入了能量聚合损失和 wUoC 度量标准，以在统一的框架下解决凝视目标预测问题。实验证明，该方法在目标检测、凝视估计和凝视对象预测三个任务中都具有优异的性能。

Dec, 2021

TransGOP：基于 Transformer 的凝视对象预测

该研究介绍了一种基于 Transformer 的注视对象预测方法 TransGOP，该方法利用 Transformer 进行对象检测和建立远距离注视关系，采用对象到注视的交叉注意力机制来改善注视热图回归，并通过注视框损失实现整体框架的端到端训练。实验证明 TransGOP 在目标检测、注视估计和注视对象预测的所有任务上均取得了最先进的性能。

Feb, 2024