视觉注意力的循环模型
研究比较深度卷积网络和带有循环结构的深度卷积神经网络的效果,针对视频识别、图像描述、检索以及视频叙事方面的问题,开发出一种新颖的循环卷积架构,该架构可以训练端到端,可以同时学习时间动态和卷积感知表示,并具有学习长期依赖性的能力。实验结果证明,循环卷积模型在识别或生成方面与现有的模型相比具有明显的优势。
Nov, 2014
提出使用基于注意力模型的深度循环神经网络,加上强化学习训练,以识别并定位输入图像中的多个目标。通过在谷歌街景图像中转录房屋编号序列的挑战性任务上的测试,表明该模型精度高于现有最先进的卷积神经网络,且使用的参数和计算量较少。
Dec, 2014
本文提出了一种新的空间监督递归卷积神经网络,用于视觉对象跟踪,通过研究长短期记忆和区域信息的回归能力,结合卷积网络产生的高层视觉特征直接预测跟踪位置,相较于现有的深度学习跟踪器,我们的跟踪器在保持低计算成本的同时更加准确和鲁棒,实验结果表明在多个数据集上均表现优异,常常优于排名第二的跟踪器。
Jul, 2016
本文提出一种全面的端到端视频视觉跟踪方法,利用循环卷积神经网络代理与视频进行交互,并结合强化学习算法来学习不断的关注连续帧相关性和最大化在长期内的跟踪性能,实现了比现有跟踪基准更快速的状态-of-the-art性能。是第一个将卷积和循环网络与强化学习算法相结合的神经网络跟踪器。
Jan, 2017
提出了一种动态计算时间模型,利用强化学习的方法来加速细粒度图像识别中循环视觉注意 (RAM)的平均处理时间,该模型通过学习何时停止处理输入图像来决定注意力的数量,实验证明该模型可以有效地减少平均计算时间,同时保持与 RAM 相同的识别性能。
Mar, 2017
本研究提出了一种递归滤波器生成方法来进行视觉跟踪,直接将目标的图像块作为输入,使用递归神经网络来生成一个特定于目标的滤波器,通过将RNN中的全连接层的矩阵乘法扩展到特征图上的卷积运算,对目标的空间结构进行保留和内存优化。
Aug, 2017
为了提高卷积神经网络(CNNs)的分类准确率,但不增加计算与存储成本,我们提出了一种采用强化学习所选择的原始图像中的一系列相对较小的输入进行处理的框架,从而实现了高效的图像分类。实验表明,采用我们提出的方法可以在不牺牲准确性的前提下显著提高多种深度模型的计算效率。
Oct, 2020
本文提出了一个新的序列特征学习方法,Glance and Focus Network(GFNet),用于图像识别问题中的减少空间冗余和时间复杂度的优化,GFNet采用类似人类视觉系统的粗到细的学习方式处理图像,并通过强化学习的方式定位图像中的显著区域,从而避免了手动标注的需求。实验表明,GFNet能够大幅度降低MobileNet-V3在iPhone XS Max上的平均延迟 (1.3x),而精度没有任何损失。
Jan, 2022