EleAtt-RNN:为循环神经网络中的神经元添加注意力机制
本文提出在 RNN block 中添加 Element-wiseAttention Gate 来实现注意力功能,通过元素级而不是输入级的自适应调节,从而提高 RNN 的效能,在人体动作识别任务中进行了实验并验证了该方法的有效性。
Jul, 2018
本文提出一种名为 Recurrent Attention Unit 的循环神经网络模型,它将注意机制融入了 GRU 的内部结构中并通过增加 attention gate 提高了 GRU 对于长期记忆的能力,对于序列数据能够通过自适应选择序列的区域或位置并在学习过程中更加关注选定的区域,实验结果表明 RAU 在图像分类、情感分类和语言建模等方面均优于 GRU 和其他基线方法。
Oct, 2018
近期的研究发现具备线性循环层和前馈路径的带有乘性门控模式的循环神经网络(RNNs)能够实现线性自注意力,这是 Transformer 的主要组成部分之一。通过对一组训练过的 RNNs 进行逆向工程,我们发现在实践中梯度下降法会找到我们构建的机制。这项研究结果强调了神经网络中乘性交互的重要性,并暗示某些 RNNs 可能在内部意外地实现了注意力机制。
Sep, 2023
我们提出了一种注意力循环神经网络 (ARNN),它在序列上循环应用注意力层,并具有与序列长度线性复杂度的特点。该模型在多通道脑电图信号上操作,利用并行计算。我们的架构受注意力层和长短期记忆 (LSTM) 单元的启发,它使用长短样式门进行扩展,并通过数倍的扩展来并行化处理多通道脑电图信号。经过广泛的实验评估,包括 CHB-MIT、UPenn 和 Mayos Clinic CHB-MIT 数据集,实证结果表明 ARNN 模型在各种任务中表现优于 LSTM、Vision Transformer (ViT)、Compact Convolution Transformer (CCT) 和 R-Transformer (RT) 等基准方法,展示出卓越的性能和更快的处理能力。代码已在 https://github.com/Salim-Lysiun/ARNN 上公开获取。
Mar, 2024
通过分析神经网络的显著性与循环神经网络的结构,我们发现传统结构不能解决时间上显著性消失的问题,我们提出了一种新的输入 - 细胞注意力 RNN 结构,它能够在任意时刻检测到重要特征,不仅仅在后来的时间步中,这对于 FMRI 数据分析等任务具有广泛的应用。
Oct, 2019
Transformers 在序列建模中取得了重大突破,但计算开销较大,本文提出了一种新的高效计算 attention 的方法,引入了名为 Aaren 的 attention-based 模块,使其能够像 Transformers 一样并行训练,同时像传统的 RNN 一样高效地更新新的 tokens,从而在多个序列问题上取得了可比较的性能,同时具有更高的时间和内存效率。
May, 2024
提出了使用基于注意力机制的人工神经网络(RNNs)来实现序列建模任务的机制,它允许 RNNs 关注需要的输入的关键部分。通过使用一个多层的有条件序列编码器,读取一个令牌并对其进行离散的决策,来控制信息流入以上层。此方法在几种任务类型上进行评估,包括各种属性的合成任务以及大规模的问答任务,并且相对于已有的基准模型,都得到了一致的性能改进。
Jun, 2018
本文提出了一种新的 GRU 门控注意力模型,可以通过使源表示对编码器状态敏感,从而增强了上下文向量的区分度,实现了对目标单词的区分性预测,并在 NIST 中英翻译任务中取得了显著的改进。
Apr, 2017
通过替换传统的循环门中的乘法和 Sigmoid 函数为加法和 ReLU 激活函数,该研究提出了一种可以在更低计算成本下维持长期记忆用于序列处理的机制,从而在受限制硬件上实现更高效的执行或更大模型。此机制能够在保持较高的计算效率的同时,捕捉到序列数据的长期依赖关系,并且在 CPU 上减少了一半的执行时间,在加密环境下减少了三分之一的执行时间,实验结果表明该机制与传统的 GRU 和 LSTM 基准模型相比,能够实现可比较的准确性。同时,该机制还能避免加密变量的乘法操作,从而支持具有保护隐私的同态加密人工智能应用,并能在(非加密)明文应用中支持量化操作,潜在地带来显著的性能提升。
Aug, 2023
本文通过对门控单元激活值的 L1 正则化来解决基于注意力的 RNN 模型过拟合的问题,同时提高了模型的可解释性。实验证明,这种方法在多项任务中均有效,包含情感分析、释义识别和问答等。
Jun, 2015