May, 2024

扩展的门控范围改善激活函数

TL;DR探索使用反正切作为门控机制的自门控激活函数,该函数具有单调递增的一阶导数,通过引入每个 MLP 块的可训练参数来扩展门控函数的范围,实验证明这种技术改善了现有的自门控激活函数,并在 Transformer 架构中显示出优越性能。扩展的门控范围还显示了改善一阶门控线性单元 (GLU) 的有希望的结果。