OAT: 目标层级注意力变换器用于凝视扫描路径预测

Jul, 2024

OAT: 目标层级注意力变换器用于凝视扫描路径预测

OAT: Object-Level Attention Transformer for Gaze Scanpath Prediction

Yini Fang, Jingling Yu, Haozheng Zhang, Ralf van der Lans, Bertram Shi

TL;DR目标与背景的关系对于视觉搜索中的视觉注意力分配至关重要。本文介绍了一种基于目标的注意力转换器，通过预测人类在混杂场景中搜索目标对象时的扫描路径来提高预测精度，并通过实验证明了其在未知布局和目标对象下的泛化能力。

Abstract

visual search is important in our daily life. The efficient allocation of visual attention is critical to effectively complete visual search

发现论文，激发创造

与人类视线互动的神经图像字幕生成

通过研究人类注视和深度神经网络注意力机制之间的相互作用，我们提出了一种新的注视辅助图像字幕模型，将人的注视信息集成到基于注意力的LSTM结构中，能够将算法选择性地分配到注视和非注视的图像区域，这种方法通过对COCO / SALICON数据集的评估，显示了我们方法改善了图像字幕性能，并且注视可以补充机器的注意力，提高了语义场景理解的任务。

Aug, 2016

人眼注视期间视觉搜索目标的视觉解码

研究使用深度卷积神经网络和生成式图像模型将人类注视视线信息解码成视觉目标的图像表示，结果显示出62%的准确率

Jun, 2017

双向物体-背景优先级学习用于显著性排名

该论文提出了一种新颖的双向方法，将空间注意力和基于对象的注意力相结合，通过模拟所关注区域和对象之间的相互作用和因果关系来实现显著性排序

Mar, 2022

机器凝视背后: 带有生物启示约束的神经网络表现出类似于人类的视觉关注

本文提出了神经视觉注意力算法（NeVA），并利用仿生视觉约束在神经网络上实现了类人的扫描路径生成。实验结果表明，该方法在类人扫描路径相似性方面优于现有无监督的人类注意力模型，同时可灵活地研究不同任务对视觉行为的影响，并在考虑不完美的视觉条件下的实际应用中表现出明显的优势。

Apr, 2022

使用卷积神经网络预测视觉搜索过程中的视觉关注和干扰

本文提出了两种方法来模拟观察者在视觉搜索过程中的视觉注意力和干扰,第一种方法使用轻量级的自由视图显著性模型来预测人眼在搜索图像像素上的注视密度地图，第二种方法基于目标对象预测干扰器和目标。

Oct, 2022

利用计算注意力预测人类注意力

本研究提出了人类注意力变压器（HAT），它是一种单一模型，预测两种形式的注意力控制，并通过使用一种新颖的基于转换器的架构和一种简化的凹面视网膜，实现了类似于人类动态视觉工作记忆的时空意识，同时避免了离散化固定目光。HAT在计算注意力方面设定了新方向，并在各种注意力需求场景中更好地预测人类行为，具有广泛的适用性。

Mar, 2023

Gazeformer: 可扩展、有效、快速预测目标导向的人类注意力

本文提出了一个名为ZeroGaze的新任务，即预测未曾搜索过的物体的视线，并开发了一种新的模型Gazeformer，该模型在Scanpath预测中利用语义相似性，采用基于变压器的编码器-解码器架构，并在ZeroGaze设置中表现出明显优越性，同时在标准视觉搜索任务中比现有模型更快。

Mar, 2023

TransGOP：基于Transformer的凝视对象预测

该研究介绍了一种基于Transformer的注视对象预测方法TransGOP，该方法利用Transformer进行对象检测和建立远距离注视关系，采用对象到注视的交叉注意力机制来改善注视热图回归，并通过注视框损失实现整体框架的端到端训练。实验证明TransGOP在目标检测、注视估计和注视对象预测的所有任务上均取得了最先进的性能。

Feb, 2024

不忘初心: 大规模视觉语言模型的关注力视觉校准

通过Attentional Vision Calibration (AVC)技术，针对Large Vision Language Models (LVLMs)中出现的盲目令牌（blind tokens）引发的视觉对象细节理解问题，通过动态调整逻辑回归预测以降低对盲目令牌的依赖，从而提高所有令牌的平衡考虑，有效地减少了LVLMs中的视觉对象幻觉。

May, 2024

GazeXplain：学习预测视觉扫描路径的自然语言解释

本研究解决了传统视觉扫描路径模型缺乏对注视背后原因的解释这一问题，通过提出GazeXplain方法，利用注意力-语言解码器共同预测扫描路径和生成解释。此外，提出的语义对齐机制和跨数据集共同训练方法显著提高了模型的适应性和一致性，实验结果表明GazeXplain在扫描路径预测与解释方面具有有效性，促进了对人类视觉注意力和认知过程的理解。

Aug, 2024