Nov, 2023

Transformer 神经网络架构中注意力机制的缩放点积的替代方法

TL;DR通过除以键值长度之和而非平方根,我们提出了一种替代方法来缩放点积,以避免在应用 softmax 时导致梯度消失的区域。我们使用模拟的键和查询显示,这种方法在许多情况下更有效。