Nov, 2023
Transformer 神经网络架构中注意力机制的缩放点积的替代方法
Alternatives to the Scaled Dot Product for Attention in the Transformer Neural Network Architecture
James Bernhard
TL;DR通过除以键值长度之和而非平方根,我们提出了一种替代方法来缩放点积,以避免在应用 softmax 时导致梯度消失的区域。我们使用模拟的键和查询显示,这种方法在许多情况下更有效。