OAT: 目标层级注意力变换器用于凝视扫描路径预测
通过研究人类注视和深度神经网络注意力机制之间的相互作用,我们提出了一种新的注视辅助图像字幕模型,将人的注视信息集成到基于注意力的LSTM结构中,能够将算法选择性地分配到注视和非注视的图像区域,这种方法通过对COCO / SALICON数据集的评估,显示了我们方法改善了图像字幕性能,并且注视可以补充机器的注意力,提高了语义场景理解的任务。
Aug, 2016
本文提出了神经视觉注意力算法(NeVA),并利用仿生视觉约束在神经网络上实现了类人的扫描路径生成。实验结果表明,该方法在类人扫描路径相似性方面优于现有无监督的人类注意力模型,同时可灵活地研究不同任务对视觉行为的影响,并在考虑不完美的视觉条件下的实际应用中表现出明显的优势。
Apr, 2022
本文提出了两种方法来模拟观察者在视觉搜索过程中的视觉注意力和干扰,第一种方法使用轻量级的自由视图显著性模型来预测人眼在搜索图像像素上的注视密度地图,第二种方法基于目标对象预测干扰器和目标。
Oct, 2022
本研究提出了人类注意力变压器(HAT),它是一种单一模型,预测两种形式的注意力控制,并通过使用一种新颖的基于转换器的架构和一种简化的凹面视网膜,实现了类似于人类动态视觉工作记忆的时空意识,同时避免了离散化固定目光。HAT在计算注意力方面设定了新方向,并在各种注意力需求场景中更好地预测人类行为,具有广泛的适用性。
Mar, 2023
本文提出了一个名为ZeroGaze的新任务,即预测未曾搜索过的物体的视线,并开发了一种新的模型Gazeformer,该模型在Scanpath预测中利用语义相似性,采用基于变压器的编码器-解码器架构,并在ZeroGaze设置中表现出明显优越性,同时在标准视觉搜索任务中比现有模型更快。
Mar, 2023
该研究介绍了一种基于Transformer的注视对象预测方法TransGOP,该方法利用Transformer进行对象检测和建立远距离注视关系,采用对象到注视的交叉注意力机制来改善注视热图回归,并通过注视框损失实现整体框架的端到端训练。实验证明TransGOP在目标检测、注视估计和注视对象预测的所有任务上均取得了最先进的性能。
Feb, 2024
通过Attentional Vision Calibration (AVC)技术,针对Large Vision Language Models (LVLMs)中出现的盲目令牌(blind tokens)引发的视觉对象细节理解问题,通过动态调整逻辑回归预测以降低对盲目令牌的依赖,从而提高所有令牌的平衡考虑,有效地减少了LVLMs中的视觉对象幻觉。
May, 2024
本研究解决了传统视觉扫描路径模型缺乏对注视背后原因的解释这一问题,通过提出GazeXplain方法,利用注意力-语言解码器共同预测扫描路径和生成解释。此外,提出的语义对齐机制和跨数据集共同训练方法显著提高了模型的适应性和一致性,实验结果表明GazeXplain在扫描路径预测与解释方面具有有效性,促进了对人类视觉注意力和认知过程的理解。
Aug, 2024