Sep, 2023

门控循环神经网络发现注意力

TL;DR近期的研究发现具备线性循环层和前馈路径的带有乘性门控模式的循环神经网络(RNNs)能够实现线性自注意力,这是 Transformer 的主要组成部分之一。通过对一组训练过的 RNNs 进行逆向工程,我们发现在实践中梯度下降法会找到我们构建的机制。这项研究结果强调了神经网络中乘性交互的重要性,并暗示某些 RNNs 可能在内部意外地实现了注意力机制。