BriefGPT.xyz
Ask
alpha
关键词
attention architectures
搜索结果 - 1
无概率笼的标准化注意力
本文介绍了 softmax-attention 在几何上的局限性,并提出采用归一化代替 softmax 实现自我注意力,从而获得超参数和数据推断鲁棒性较强的通用结构。
PDF
4 years ago
Prev
Next