本文研究了如何在自然社交场景下,通过多任务学习方法精准地估计人们在图像中的视觉关注与注视点,特别考虑了视线方向及目标超出画面的情况。该方法在多项测试中取得了优异表现,扩展了现有数据集,公开发布。
Jul, 2018
提出 SalGaze,一种利用视觉内容中的显著性信息,无需显式用户校准,可透明地适应用户注视估计算法的框架,能够使用与标准点校准数据不同的显式视频显著性校准数据的统一框架,优于现有方法,精度提高了 24%。
Oct, 2019
本研究提出了基于深度学习的时空注意力预测模型,其中采用两条流网络架构,探究了不同的信息融合机制。实验结果表明,采用运动信息可以有助于静态注意力估计,并取得了与最先进模型相竞争的结果。
Jul, 2016
提出了一种基于卷积 LSTM 的新型模型,结合神经注意机制,可预测准确的显著图,并学习一组使用高斯函数生成的先验图,这种模型在公共显著性预测数据集上表现优于现有技术,可以克服人眼注视典型的中心偏差,并且对于不同的情境展现了关键组件各自的贡献。
Nov, 2016
本研究提出了一种基于高斯混合模型的时空注意力模型,并使用人类注视数据进行训练,相比先前的方法,该模型在影片显著性预测方面具有最先进的表现,并在动作分类准确性方面取得了改进。
Mar, 2016
本研究提出一种基于 Bernoulli 分布的显著性图模型,并使用包括 softmax 在内的新损失函数,通过大规模数据和深度结构进行显著性估计,表现优于现有的显著性方法。
Apr, 2018
通过深度学习的社交线索整合模型,我们开发了一个视频中注视预测的模型,通过递归地整合注视历史和社交线索来学习注视路径,以填补以往只关注群体模型而忽视了个体差异的研究空白。我们观察到这种单一统一的模型通过整合普遍关注和个体化注意力行为的方式在注视数据集上表现出色,优于个别训练的模型。
May, 2024
我们提出了一种用于预测图形设计文档中视觉注意力的模型,该模型是首个尝试使用基于深度学习的模型预测文档区域被凝视的空间注意力和动态时间顺序。通过提出的两阶段模型,我们能够预测图形设计文档中的动态注意力,并在眼动实验中显示出比现有模型更好的性能。
Jul, 2024
本文提出了基于标题引导的视觉显著性方法,通过训练数据隐式的学习到现代编码器解码器网络中的区域到单词的映射,而不引入显式的注意力层,从而分析各种现有模型结构,并提供更准确的显著性热图。
Dec, 2016
本文通过建立大规模的多人面部视频音频条件下的视线跟踪数据库,研究声音对多人面部视频视觉线索的影响,并提出了一种新的多模式视频显着性模型,包括三种分支:视觉,音频和面部,实验结果表明该方法胜过 11 种现有的显着性预测方法。
Mar, 2021