EMNLPJan, 2019

是时候使用 Swish 了吗?比较不同的 Deep Learning 激活函数在 NLP 任务中的表现

TL;DR本文通过对 21 种激活函数进行了首次大规模比较,并发现所谓的惩罚性 tanh 函数在 8 种不同的自然语言处理任务中表现最为稳定,可替换 LSTM 细胞中的 sigmoid 和 tanh 门,在具有挑战性的自然语言处理任务中实现了 2 个百分点的改进。