May, 2020

无概率笼的标准化注意力

TL;DR本文介绍了 softmax-attention 在几何上的局限性,并提出采用归一化代替 softmax 实现自我注意力,从而获得超参数和数据推断鲁棒性较强的通用结构。