本文介绍一种新颖的方法,通过重复使用深度神经网络的预训练模型,构建一种针对显著性预测的模型,从而有效地提高了预测准确性,并展示此网络结构可以为视觉注意机制的理解提供新的见解。
Nov, 2014
DeepFix 是一种全新的卷积神经网络,可用于准确地预测显著性图,并集成了多尺度语义和全局上下文,并通过引入 Location Biased 卷积层来解决空间不变性问题,其表现优越。
Oct, 2015
通过深度学习网络结构,我们的视觉注意力网络从全局到本地不同范围内的多尺度特征中提取等级显著信息以预测人眼的视觉注视点,并在各种基准数据集上实现了最先进的性能表现。
May, 2017
提出了一种基于卷积 LSTM 的新型模型,结合神经注意机制,可预测准确的显著图,并学习一组使用高斯函数生成的先验图,这种模型在公共显著性预测数据集上表现优于现有技术,可以克服人眼注视典型的中心偏差,并且对于不同的情境展现了关键组件各自的贡献。
Nov, 2016
研究了利用仿生学注意机制的物体识别方法,通过采用集成注意力、分类和定位的双重任务模型,利用人类注意力系统分辨图像中的感兴趣区域。
Apr, 2023
通过使用新的深度学习技术,本文旨在检测自然视频中的显著区域。首先预测视频帧中的显著补丁,然后基于它们构建预测的视觉注视地图。我们展示了通过更改优化网络参数的数据选择方式,可以将计算成本节约多达 12 倍。将 RGB 值的深度学习方法扩展到具有特定性的视频以利用人类视觉系统对残留运动的敏感性。在两个公开可用数据集上进行实验,并展示了较高的准确度和 AUC 度量。
Apr, 2016
本文提出了一个新的序列特征学习方法,Glance and Focus Network(GFNet),用于图像识别问题中的减少空间冗余和时间复杂度的优化,GFNet 采用类似人类视觉系统的粗到细的学习方式处理图像,并通过强化学习的方式定位图像中的显著区域,从而避免了手动标注的需求。实验表明,GFNet 能够大幅度降低 MobileNet-V3 在 iPhone XS Max 上的平均延迟 (1.3x),而精度没有任何损失。
Jan, 2022
本研究提出了一种基于高斯混合模型的时空注意力模型,并使用人类注视数据进行训练,相比先前的方法,该模型在影片显著性预测方面具有最先进的表现,并在动作分类准确性方面取得了改进。
Mar, 2016
DeepGaze II 使用 VGG-19 深度神经网络训练的特征来预测图像中人们看向哪里,其不需要额外的微调,证实了迁移学习的有效性,可以用于视觉任务。
Oct, 2016
该论文提出了一种基于卷积神经网络的方法,通过提取多尺度的高级视觉特征和上下文信息,结合全局场景信息,用于准确预测视觉显著性,可以适用于资源受限的应用,如(虚拟)机器人系统,从而在多个基准测试数据集上取得了有竞争力和一致的结果。
Feb, 2019