自注意力何时可被前馈层替代？

May, 2020

When Can Self-Attention Be Replaced by Feed Forward Layers?

Shucong Zhang, Erfan Loweimi, Peter Bell, Steve Renals

TL;DR使用前馈网络替代自注意力模型的编码器中的上层自注意力层，不会造成语音识别性能降低，在较低的自注意力层对输入进行编码已足够获取丰富的上下文信息。

Abstract

Recently, self-attention models such as transformers have given competitive results compared to recurrent neural network systems in speech recogn

self-attention models transformers speech recognition feed forward layers contextual information

发现论文，激发创造

自注意力在基于 Transformer 的自动语音识别中的应用价值

本研究研究了 Transformers 中自注意力机制在音频识别中的应用，发现在训练较高的编码层时，全局视图不是必须的。

Nov, 2020

利用持久内存扩展自注意力

该研究提出了一种新的模型，该模型仅由注意力层组成。在具体实现中，加入了持续性存储向量来代替前馈层，这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示，该模型在标准字符和词级语言建模基准上表现出良好的效果。

Jul, 2019

非常深的自注意力网络用于端到端语音识别

本研究采用 Transformer 结构，构建端到端的序列到序列模型，其表现超过了之前的端到端模型和传统混合系统，并且在 Switchboard 基准测试中超出了所有之前的端到端 ASR 方法。

Apr, 2019

神经序列模型中自注意力的理论限制

本文研究了自注意力在建模形式语言方面的计算能力，发现其在处理分层结构时存在强烈的理论限制，但在自然语言处理方面表现卓越。

Jun, 2019

循环线性变换

通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。

Oct, 2023

直接语言翻译中注意力的局部性

本文讨论了自我注意力（self-attention）在直接语音翻译中的应用。通过分析编码器中自我注意力的逐层令牌贡献，发现了局部对角线模式，并提出用局部高效的自我注意力替代标准自我注意力，通过跳过标准自我注意力废弃的权重来提高模型的效率，但仍保持与基线性能相同。

Apr, 2022

自注意力与卷积层之间的关系

本研究表明防止卷积操作而采用自注意层可以获得与卷积层相同的表现，这提供了一种证明多头自注意层与卷积层至少具有相同表征能力的方法。

Nov, 2019

门控循环神经网络发现注意力

近期的研究发现具备线性循环层和前馈路径的带有乘性门控模式的循环神经网络（RNNs）能够实现线性自注意力，这是 Transformer 的主要组成部分之一。通过对一组训练过的 RNNs 进行逆向工程，我们发现在实践中梯度下降法会找到我们构建的机制。这项研究结果强调了神经网络中乘性交互的重要性，并暗示某些 RNNs 可能在内部意外地实现了注意力机制。

Sep, 2023

自注意力机制的优势：神经机器翻译结构的定向评估

本文探讨了卷积网络、自注意力网络和循环神经网络在神经机器翻译中的表现。研究发现，自注意力网络和卷积网络在语义特征提取方面表现更好，但在长距离依赖性分析中没有超越循环神经网络。

Aug, 2018

自注意力层

通过对 transformer 中不同标记和 graph neural network 中不同节点在深层的相似性进行分析，我们提出了一个简单的修正项，它可以有效地消除过度平滑问题，在弱监督分割任务上表现优于通常基准方法，并且在非常深的图神经网络架构训练上显著提高了训练效果。

Jun, 2023