ACLAug, 2022

可学习激活函数的 Transformer

TL;DR本研究探讨了在 Transformer 架构中使用可学习激活函数 Rational Activation Function(RAF)的有效性,并表明基于 RAF 的 Transformer(RAFT)相对于使用 GELU 函数的原始 BERT 达到更低的验证复杂度。在低数据场景和全数据设置下的下游任务中,RAFT 都优于对应的模型,并且 RAF 的形状在不同的层之间有显著的差别,这为分析和解释预训练模型打开了新的研究方向。