基于注意力的RNN模型在计算机视觉中的应用调查
本文对于近三十年来产生和实践了重要的循环神经网络(RNN),LSTM和BRNN等模型的研究进行综述,旨在提供一个自成体系的最前沿阐述和历史视角,并引用了相关研究文献。
May, 2015
我们提出了一种适用于前馈神经网络的简化注意力模型,并证明其可解决比这些任务的最佳出版结果更长和更广泛变化的序列长度的综合“加法”和“乘法”长期记忆问题。
Dec, 2015
本文提出了一种称为Hierarchical Multi-scale Attention Network (HM-AN) 的多层次自然渐变神经网络,融合Hierarchical Multi-scale RNN和注意机制来处理动作识别问题,并且采用Gumbel-softmax梯度估计方法来优化网络表现。实验证明,HM-AN 在视觉任务上优于使用注意机制的LSTM网络,而通过网络学习的可视化,可以观察到HM-AN具有较好的注意力区域和分层次的时序结构。
Aug, 2017
本研究提出一种基于时空注意力机制的人体动作识别方法,采用外部信息(人的姿态)提取注意力分布,采用RNN实现注意力的递归处理,以实现自动关注动作中最活跃的手部,并检测最具区分度的动作要素,并在NTU-RGB + D数据集上获得最先进的结果。
Dec, 2017
本文提出一种名为Recurrent Attention Unit的循环神经网络模型,它将注意机制融入了GRU的内部结构中并通过增加attention gate提高了GRU对于长期记忆的能力,对于序列数据能够通过自适应选择序列的区域或位置并在学习过程中更加关注选定的区域,实验结果表明RAU在图像分类、情感分类和语言建模等方面均优于GRU和其他基线方法。
Oct, 2018
本文提出了R-Transformer模型,结合了RNN和多头注意力机制的优点,同时避免了它们各自的缺点,能够在不使用位置嵌入的情况下有效捕捉序列中的本地结构和全局长期依赖关系。通过广泛的实验评估表明,在大多数任务中,R-Transformer优于最先进的方法。
Jul, 2019
我们提出了一种基于时间卷积网络和注意力机制的探索性架构称为TCAN,它不仅能够实现递归网络的近似替代,还可以吸收前向模型的优势,提高了word-level PTB、character-level PTB和WikiText-2等文本数据集的bpc/perplexity表现.
Feb, 2020
Transformers在序列建模中取得了重大突破,但计算开销较大,本文提出了一种新的高效计算attention的方法,引入了名为Aaren的attention-based模块,使其能够像Transformers一样并行训练,同时像传统的RNN一样高效地更新新的tokens,从而在多个序列问题上取得了可比较的性能,同时具有更高的时间和内存效率。
May, 2024
本研究解决了递归神经网络(RNN)在处理静态图像时的不典型应用,通常该任务由卷积神经网络(CNN)主导。论文提出将像素视为序列来处理图像,并设计了一种新的二维输入RNN结构,尤其适合嵌入式系统。实验结果表明,在COCO和CIFAR100数据集上,这一方法在小型网络中具有更好的性能。
Sep, 2024