人眼注视期间视觉搜索目标的视觉解码
本文提出了 InferNet 模型来通过观察人眼的运动轨迹进行目标推断,并且证明了该模型在实验中表现优秀,甚至在没有物体特异性训练的情况下也能完成任务。
Jul, 2018
通过研究人类注视和深度神经网络注意力机制之间的相互作用,我们提出了一种新的注视辅助图像字幕模型,将人的注视信息集成到基于注意力的 LSTM 结构中,能够将算法选择性地分配到注视和非注视的图像区域,这种方法通过对 COCO / SALICON 数据集的评估,显示了我们方法改善了图像字幕性能,并且注视可以补充机器的注意力,提高了语义场景理解的任务。
Aug, 2016
本文提出了一种基于 FFMs 的数据驱动计算模型,用于解决人类搜索终止问题以及预测在图像中搜索不存在目标时人们的扫描路径,通过将 FFMs 集成为状态表示在逆强化学习中将其作为方法,实验结果在 COCO-Search18 数据集上提高了目标缺失搜索行为的预测水平。
Jul, 2022
本研究探讨是否可以利用人眼注视追踪信息定义注意力机制以提高视频字幕生成任务的性能,通过提出一种名为 GEAN 的视频字幕模型,并采用人眼注视追踪数据来提供生成句子的时空注意力,以及对语言相似性指标和人工智能通过 Amazon mechanical Turk 进行的评估,证明了由人眼追踪数据指导的空间注意力确实改善了多个字幕方法的性能,并展示了该方法在 VAS 数据集和标准数据集(如 LSMDC 和 Hollywood2)中实现了领先的性能,成为最先进的视频字幕生成方法。
Jul, 2017
该论文提出了一种自适应的方法来清洗现有的人类凝视数据集,并提出了一个健壮的卷积自我注意凝视预测模型,实验证明我们的清洗方法和模型能够显著提高 ADS 性能和泛化能力。
May, 2023
本文基于卷积神经网络提出了一个新的注视序列比较方法,通过图像分析来探索医学专家和新手在阅读牙齿放射图时眼动行为的差异,结果表明在任务语义影响下,该方法在能够准确区分专家和新手方面表现出较好性能,并且具有将任务语义与眼动行为结合在一起的潜力。
Mar, 2020
本文研究了在不考虑已有固定数据的情况下,学习人类注视点以预测搜索目标的问题,并提出了一个新的方法来学习注视点与潜在目标之间的兼容性,实验证明可以对候选图像集中的正确目标进行预测。
Feb, 2015
本文提出了一种基于人类凝视追踪思路的两阶段解决方案,集成了神经网络和数据集,有效地预测并追踪目标人物的目光方向,且经过大量实验证明,该方案相对于现有解决方案有明显优势。
Jul, 2019
通过第一人称视角视频的实时深度学习方法,本研究展示了进行新生儿复苏期间提供者凝视定位的自动化解析,为提高提供者培训、实时决策支持以及优化产房和新生儿重症监护病房设计提供了可能。该方法能够客观地量化提供者在新生儿复苏中的注意力变化,为数据稀缺的凝视分析提供了可扩展的解决方案,从而为改进临床决策提供了新的机会。
Apr, 2024