GazeXplain：学习预测视觉扫描路径的自然语言解释

Aug, 2024

GazeXplain：学习预测视觉扫描路径的自然语言解释

GazeXplain: Learning to Predict Natural Language Explanations of Visual Scanpaths

Xianyu Chen, Ming Jiang, Qi Zhao

TL;DR本研究解决了传统视觉扫描路径模型缺乏对注视背后原因的解释这一问题，通过提出GazeXplain方法，利用注意力-语言解码器共同预测扫描路径和生成解释。此外，提出的语义对齐机制和跨数据集共同训练方法显著提高了模型的适应性和一致性，实验结果表明GazeXplain在扫描路径预测与解释方面具有有效性，促进了对人类视觉注意力和认知过程的理解。

Abstract

While exploring visual scenes, humans' scanpaths are driven by their underlying attention processes. Understanding Visual Scanpaths is essential for various applications. Traditional scanpath models predict the where and when of gaze shifts without providing explanations, creating a ga

发现论文，激发创造

人眼注视期间视觉搜索目标的视觉解码

研究使用深度卷积神经网络和生成式图像模型将人类注视视线信息解码成视觉目标的图像表示，结果显示出62%的准确率

Jun, 2017

人类扫描路径预测的最新技术

评估人类扫视路径预测模型的学术论文，引入新的评估指标方法并详细比较了现有模型的性能，提出了以往指标所忽略的问题点。论文最终提出了MIT/Tuebingen Saliency Benchmark数据集作为基准，供研究人员参考，评价其模型预测的准确性。

Feb, 2021

机器凝视背后: 带有生物启示约束的神经网络表现出类似于人类的视觉关注

本文提出了神经视觉注意力算法（NeVA），并利用仿生视觉约束在神经网络上实现了类人的扫描路径生成。实验结果表明，该方法在类人扫描路径相似性方面优于现有无监督的人类注意力模型，同时可灵活地研究不同任务对视觉行为的影响，并在考虑不完美的视觉条件下的实际应用中表现出明显的优势。

Apr, 2022

为改善NLP表现合成人类凝视反馈

本文提出了一种基于ScanTextGAN的人类注视路径生成模型，通过集成生成的注视路径数据来提高自然语言处理领域中多个任务的性能表现。

Feb, 2023

Gazeformer: 可扩展、有效、快速预测目标导向的人类注意力

本文提出了一个名为ZeroGaze的新任务，即预测未曾搜索过的物体的视线，并开发了一种新的模型Gazeformer，该模型在Scanpath预测中利用语义相似性，采用基于变压器的编码器-解码器架构，并在ZeroGaze设置中表现出明显优越性，同时在标准视觉搜索任务中比现有模型更快。

Mar, 2023

Eyettention: 一种基于注意力的双序列模型，用于预测阅读过程中人类扫视路径

本文提出了一种名为Eyettention的双序列模型，它可以同时处理词序列和注视序列，通过交叉序列注意机制实现了两个序列的对齐，并在不同的语言数据集上进行了广泛评估和深入分析。结果显示，Eyettention在预测扫描路径方面表现优于现有模型。

Apr, 2023

对比语言图像预训练模型作为零样本人类扫视路径预测器

介绍了CapMIT1003数据集和NevaClip预测视觉扫描路径的方法，后者结合了对比语言-图像预训练模型和仿生神经视觉注意力算法，结合任务相关的指导信息，提高了视觉注意力的模拟准确性。

May, 2023

统一动态扫视路径预测器优于单独训练模型

通过深度学习的社交线索整合模型，我们开发了一个视频中注视预测的模型，通过递归地整合注视历史和社交线索来学习注视路径，以填补以往只关注群体模型而忽视了个体差异的研究空白。我们观察到这种单一统一的模型通过整合普遍关注和个体化注意力行为的方式在注视数据集上表现出色，优于个别训练的模型。

May, 2024

OAT: 目标层级注意力变换器用于凝视扫描路径预测

目标与背景的关系对于视觉搜索中的视觉注意力分配至关重要。本文介绍了一种基于目标的注意力转换器，通过预测人类在混杂场景中搜索目标对象时的扫描路径来提高预测精度，并通过实验证明了其在未知布局和目标对象下的泛化能力。

Jul, 2024

FovEx：人类启发的视觉变换器和卷积神经网络解释方法

该研究解决了当前人工智能可解释性方法对特定模型架构的强依赖问题。提出了一种新的受人类视觉启发的可解释性方法FovEx，通过生物学启发的扰动与基于梯度的视觉探索相结合，以高效地定位模型的重要区域。研究表明，FovEx的解释图与人类注视模式一致性显著提高，展示了其在各种架构中的卓越性能和实际应用潜力。

Aug, 2024