RATM: 循环注意力跟踪模型
本文提出了一种基于分层注意力循环模型的目标跟踪算法,该算法可以在视频中跟踪单个物体,并通过梯度方法进行完全可微分且纯数据驱动的训练。为了改进训练收敛性,在损失函数中增加了与跟踪相关的辅助任务项。该模型在 KTH 活动识别数据集和 KITTI 物体跟踪数据集上进行了评估。
Jun, 2017
该研究论文提出了一种基于视觉注意力的训练深度分类器的互补学习算法,利用正反馈操作生成注意力图来作为正则化项,该机制能够使分类器学习到关注具有外观变化鲁棒性的目标对象的区域,实验证明该注意力跟踪方法在大规模基准数据集上的性能表现优于现有的基于检测的跟踪算法。
Oct, 2018
本文提出一种基于 soft attention 的模型,用于对视频中的动作进行识别,该模型使用多层循环神经网络 (RNNs) 和长短期记忆 (LSTM) 单元,学习有选择地专注于视频帧的某些部分,通过几个瞥见来对视频进行分类。该模型主要学习帧中哪些部分与目标任务相关,并赋予它们更高的重要性。我们在 UCF-11 (YouTube Action)、HMDB-51 和 Hollywood2 数据集上评估了该模型,并分析了模型在不同场景和不同动作下注意力的聚焦。
Nov, 2015
通过使用一个循环网络来明确地建模词语先前和随后的注意力水平之间的关系,我们改进了 Bahdanau 等人(2014)的注意力模型,并且我们的参数化注意力模型的实验表明其可以提高翻译质量。
Jul, 2016
提出使用基于注意力模型的深度循环神经网络,加上强化学习训练,以识别并定位输入图像中的多个目标。通过在谷歌街景图像中转录房屋编号序列的挑战性任务上的测试,表明该模型精度高于现有最先进的卷积神经网络,且使用的参数和计算量较少。
Dec, 2014
提出了一种基于注意力的模型,利用注视数据进行同时进行目标跟踪和识别。模型有两个相互作用的通路:身份和控制,分别模拟神经元科学模型中的「what 和 where」通路,其中前者使用深度(分解)受限玻尔兹曼机模拟对象外观并执行分类,而后者模拟关注对象的位置、方向、大小和速度,并估计状态的后验分布。
Sep, 2011
本文提出了一种利用深度学习技术中的循环记忆 - 关注模块来实现图像多标签分类识别的新方法。通过不使用候选区域提取方法,从卷积特征图中定位注意区域,并使用 LSTM 子网络对这些区域进行语义标记和全局依赖性的序列预测。试验表明该方法在识别准确率和效率上均优于现有技术。
Nov, 2017
研究人类运动轨迹预测,提出基于注意力机制的轻量级循环模型并结合基于场景感知的目标估计模块,应用于公共数据集,能够在保证预测准确性的前提下,减少模型复杂度。
Apr, 2022
本文探讨使用循环神经网络中 attention 机制解决序列到序列问题的方法,并介绍相关的应用于计算机视觉中的算法并验证其优越性,同时也提出了未来的研究方向。
Jan, 2016