BriefGPT.xyz
Ask
alpha
关键词
qknorm
搜索结果 - 1
EMNLP
Transformer 模型的查询键归一化
本文提出 QKNorm 方法,对 Transformer 神经网络的 attention 机制进行优化,在不损失表现力情况下,通过可以学习的参数替代平方根作为归一化时分母,减小了 softmax 函数的任意性饱和,实验表明在 5 种语言翻译
→
PDF
4 years ago
Prev
Next