BriefGPT.xyz
Ask
alpha
关键词
glu
搜索结果 - 1
GLU 变体改进 Transformer
本研究测试了变化的 GLU,其中用不同的非线性(或线性)函数代替 sigmoid,发现其中一些在 Transformer 的前馈子层中使用比通常使用的 ReLU 或 GELU 激活函数有质量改进。
PDF
4 years ago
Prev
Next