Feb, 2020

GLU 变体改进 Transformer

TL;DR本研究测试了变化的 GLU,其中用不同的非线性(或线性)函数代替 sigmoid,发现其中一些在 Transformer 的前馈子层中使用比通常使用的 ReLU 或 GELU 激活函数有质量改进。