通过深度学习网络结构,我们的视觉注意力网络从全局到本地不同范围内的多尺度特征中提取等级显著信息以预测人眼的视觉注视点,并在各种基准数据集上实现了最先进的性能表现。
May, 2017
通过引入可解释的时空注意力机制来提高视频动作识别的准确性和模型解释性,并使用一组正则化器对其进行约束。利用弱监督的方式仅使用分类标签,模型不仅提高了准确性,还能时空自动定位区分性区域。
Oct, 2018
提出了一种新的时空注意力模型,可以自动发现多样化的特征,并使用空间和时间的注意力组合提取有用的信息,从整个视频序列中学习潜在的面部、躯干和其他身体部位的隐藏表示,通过三个数据集的评估发现算法优于现有方法。
Mar, 2018
通过模拟人类观看视频时的记忆机制和视觉注意机制,我们提出了一种新颖高效的视频眼球凝视检测模型,通过在时间轴上组合记忆信息和在空间轴上的运动信息,存储当前帧的显著性信息来改善显著性检测性能,并通过分层训练获得模型,实验结果表明我们提出的模型在多个公开数据集上优于现有的 11 个最先进的方法。
Sep, 2018
本研究提出了基于深度学习的时空注意力预测模型,其中采用两条流网络架构,探究了不同的信息融合机制。实验结果表明,采用运动信息可以有助于静态注意力估计,并取得了与最先进模型相竞争的结果。
Jul, 2016
本文提出了两种方法来模拟观察者在视觉搜索过程中的视觉注意力和干扰,第一种方法使用轻量级的自由视图显著性模型来预测人眼在搜索图像像素上的注视密度地图,第二种方法基于目标对象预测干扰器和目标。
Oct, 2022
本文提出了一个深度学习模型,通过数据增强技术和动态显著性模型来高效地检测视频中的显著区域,该模型在 DAVIS 和 FBMS 数据集上达到了最新的性能标准。
Feb, 2017
提出了一种基于卷积 LSTM 的新型模型,结合神经注意机制,可预测准确的显著图,并学习一组使用高斯函数生成的先验图,这种模型在公共显著性预测数据集上表现优于现有技术,可以克服人眼注视典型的中心偏差,并且对于不同的情境展现了关键组件各自的贡献。
Nov, 2016
该研究提出了一种基于注意力机制增强的 CNN-LSTM 网络架构,可用于动态视频场景下显著性学习,在 DHF1K 数据集上取得了优于其他竞争者的性能表现。
Jan, 2018
本文介绍一种新的连续注意力机制,它生成具有高斯混合形式的多模态密度,用于图像区域的聚合。 该方法在视觉问题回答中表现出有竞争力的准确性和自动分离复杂场景中物体和地面的能力,并提供比其他方法更可解释的注意力地图。
Apr, 2021