- MDS-ViTNet: 基于视觉 Transformer 改进注视预测的方法
本文介绍了一种名为 MDS-ViTNet(多解码视觉变换网络)的新方法,用于增强视觉显著性预测和眼动跟踪。该方法在多个领域具有重要潜力,包括市场营销、医学、机器人技术和零售业。我们提出了一种利用 Vision Transformer 的网络 - 基于 Transformer 的人类注视行为在视频中的预测模型
基于眼动追踪数据的视频分析自动化是一个重要的任务。本文提出了一种基于转换器增强学习算法的模拟人类视线行为的新方法,通过观看视频并模拟人类注视行为,该方法能有效地复制人类注视行为并应用于实际任务。
- 支持间接观察者眼动一致性的分裂检测 AI 训练
通过利用目光追踪技术收集医生的行为数据,这项研究探讨了一种成本效益高的方法来为人工智能训练收集高质量的医生标注,以用于病理学任务中有关有丝分裂检测的研究。
- PoTeC:一个德语自然眼动阅读语料库
Potsdam Textbook Corpus (PoTeC) 是一个自然语言处理语料库,其中包含 75 名参与者阅读 12 篇科学文本时的眼动数据。PoTeC 是第一个包含领域专家和新手眼动数据的自然语言处理语料库,其设计基于 2x2x2 - AAAI利用凝视进行对比学习以促进计算机辅助诊断
通过眼动追踪作为替代文本报告的方法,我们可以 passively 收集放射科医师在阅读和诊断医学图像时的视觉关注和临床推理,从而在医学图像领域中改善对比度预训练的有效性。我们提出了医学对比度视线图像预训练(McGIP)作为对比度学习框架的即 - 深度学习在帕金森病眼动数据的时间序列分类中的应用
通过使用眼动追踪数据,分析巴金森病诊断和分类的深度学习算法,研究发现通过用于准备阶段的短时间序列数据作为输入可实现疾病分类任务,结果表明这些数据具有较低的主体间变异性并携带关于大脑认知和运动状况的有用信息,有效用于机器学习发现与疾病相关的生 - 利用深度学习对眼动数据进行阿尔茨海默病分类
使用深度学习分类器(VTNet)对原始眼动数据进行端到端训练,以改进目标 AD 分类任务中的性能,并证明该模型在从眼动数据中进行预测方面具有普适性。
- 利用单次拍摄偏转测量从密集三维表面重建进行精确眼球追踪
通过利用单次相位测量偏转术(PMD)的教导,我们提出了一种利用镜面反射快速准确地评估注视方向的新方法,该方法通过仅在单个相机帧中获取角膜和巩膜的密集三维表面信息,在获得的反射表面点(“闪光”)方面可以实现超过 3300 倍的改进。
- CLERA:一种联合认知负荷和野外眼部区域分析的统一模型
提出了一种基于 CLERA 模型的非侵入式、实时的眼动分析方法,可以监测人类视觉注意力分配并估计其心理状态,在人机交互 (HCI) 应用中有广泛的潜在用途。该方法在认知负荷估计、眼睛关键点检测和眨眼估计等任务中展示了显著的效果,超越了先前的 - GazeGNN: 一种用于疾病分类的注视导向图神经网络
本文中提出了一种新的注视引导的图神经网络(GazeGNN),用于对医学扫描进行疾病分类,该方法不需要将目光信息转换为视觉注意力图;该方法在公共胸部 X-ray 数据集上实验,相较于现有方法,本方法取得了最佳分类性能。
- WebQAmGaze:一个多语言的网络摄像头阅读时注视追踪数据集
创建了 WebQAmGaze—— 一个多语言低成本的阅读时眼动追踪数据集,旨在支持公平和透明的 NLP 模型的开发。WebQAmGaze 包括来自 332 个参与者的网络摄像头眼动跟踪数据,这些参与者以自然的方式阅读英语、西班牙语和德语文本 - ACL认知处理复杂度的跨语言转移
本文探讨了阅读文本时眼动的影响,并研究了多语言模型对跨语言转移的使用。作者使用句子级别的眼动模式将结构复杂性作为认知指标,并表明多语言模型 XLM-RoBERTa 能够成功地预测 13 种形态上不同的语言的模式。作者还对模型对结构复杂性的敏 - 使用眼动跟踪、标注和语言模型进行文本风格显著性比较研究
本文介绍了一个用于人类对文学文本 (例如礼貌) 处理的眼动数据集 eyeStyliency, 并使用各种方法推导出收集的眼动数据中的样式显着性得分,研究人员探讨了眼动数据与人类注释和基于模型的重要性评分的关系,并发现引人注目的单词添加到提示 - 关于预期对于阅读时间的影响
本篇研究检验了阅读的预测性质,发现上下文熵对阅读时间的预测能力高于或等于惊奇程度,在四个阅读数据中三个能够预测阅读时间。此外,作者提出了四个认知机制来支持上下文熵对阅读时间的影响,从而支持阅读具有先见性和响应性的观点。
- 注意力机制是否具备人类阅读特征?情感分类任务视角
通过实验发现注意力机制在句子中能够关注到重要的词,类似于人类阅读时关注关键词汇,但机器学习可能出现错误关注,因而可以借助眼动仪辅助纠正错误,从而提高分类任务的性能。
- Cycle-GAN 用于眼动跟踪
本文介绍了一个对于眼动追踪任务使用 Cycle-GAN 方法的非典型实现。
- 丹麦自然阅读眼动仪记录的哥本哈根语料库
通过人们阅读时的眼动记录生成的语料库是自然语言处理的一种方式。我们介绍了 CopCo,这是丹麦语阅读的第一个眼动录音语料库,包括 1,832 个句子,34,897 个单词,从演讲手稿中提取出的丹麦文本。该语料库的第一次发布包含来自 22 位 - ACL衡量(心理)语言和易读性特征以及它们的溢出效应对预测眼动模式的影响
本文报告了两个眼动追踪语料库和两种语言模型(BERT 和 GPT-2)的实验结果。实验表明,预测自然阅读过程中多种眼动追踪参数时,包含的特征和基于 transformer 的语言模型的架构都发挥了作用。同时通过 SP-LIME,实验分析了不 - EEGEyeNet:一份同时包含脑电图和眼动数据的预测眼动的基准数据集
本论文提出了一个新的数据集和基准,旨在推进大脑活动和眼动交叉领域的研究。使用该数据集,我们还提出了一个 EEG 测量下注视预测的基准,并对此进行了广泛的实验,为基础机器学习模型和大型神经网络提供了坚实的基础。
- 连接信息寻求的人类注视和机器阅读理解
本研究分析了人类阅读理解过程中的凝视方式及其对于机器阅读理解的帮助,通过收集了一个新的眼动追踪数据集,得出了阅读过程中与问题相关的文本部分会有更长的凝视时间的结论,并提出了模仿人类寻求信息的阅读行为以提高模型性能的方法,在英语阅读理解问答中