是时候使用 Swish 了吗？比较不同的 Deep Learning 激活函数在 NLP 任务中的表现

EMNLPJan, 2019

是时候使用 Swish 了吗？比较不同的 Deep Learning 激活函数在 NLP 任务中的表现

Is it Time to Swish? Comparing Deep Learning Activation Functions Across NLP tasks

Steffen Eger, Paul Youssef, Iryna Gurevych

TL;DR本文通过对 21 种激活函数进行了首次大规模比较，并发现所谓的惩罚性 tanh 函数在 8 种不同的自然语言处理任务中表现最为稳定，可替换 LSTM 细胞中的 sigmoid 和 tanh 门，在具有挑战性的自然语言处理任务中实现了 2 个百分点的改进。

Abstract

activation functions play a crucial role in neural networks because they are the nonlinearities which have been attributed to the success story of deep learning. One of the currently most popular activation functions

activation functions relu lrelu swish nlp tasks

发现论文，激发创造

寻找激活函数

本文提出利用自动搜索技术发现新的激活函数。通过详尽和强化学习的结合搜索，发现了多个新型激活函数，其中最佳的发现激活函数（称为 Swish）在许多困难数据集上比 ReLU 更有效。

Oct, 2017

使用分段线性单元学习专业的激活函数

提出了一种新的激活函数 Piecewise Linear Unit，它可以学习专门的激活函数，并在大规模数据集上获得 SOTA 性能，比 Swish 在 ImageNet 分类数据集上分别提高了 0.9%/0.53%/1.0%/1.7%/1.0% 的 top-1 准确率，此外 PWLU 易于实现且在推理方面高效。

Apr, 2021

通过动态激活函数优化前馈和卷积神经网络的性能

复杂的分段线性激活函数在浅层和深层卷积神经网络中比 ReLu 激活函数效果更好，并使用 PyTorch 进行结果比较。

Aug, 2023

深度网络近似：超越 ReLU，使用多样激活函数

本文研究深度神经网络对各种激活函数的表达能力，并证明可在任意有界集合上以稍大的常数精度近似任意激活函数的神经网络。

Jul, 2023

神经网络激活函数的作用

本文通过样条理论的角度展示了神经网络训练问题与函数的 Banach 空间有关，进一步论述了 ReLU 等激活函数的重要性，解释了神经网络设计与训练策略如何影响其性能，并为路径范数正则化及跳连等策略提供了新的理论支持。

Oct, 2019

深度学习中的激活函数：综述和基准比较

本论文综述了深度学习神经网络中激活函数的综合评估与调查，并对不同类型的激活函数进行了分类和性能比较。

Sep, 2021

深度神经网络 MNIST 分类任务的非线性激活函数比较

本文介绍了常见的非线性激活函数，并对它们的特点进行了评估。同时，分析了深层神经网络及其与权重初始化方法的关系，其中将特别关注节点的入度和出度对整个网络的影响。

Apr, 2018

发现参数激活函数

本文提出了一种使用进化搜索和梯度下降优化参数的方法来自动定制激活函数，实现对深度学习网络性能的可靠优化，验证结果表明该方法可以用作新任务的自动优化步骤。

Jun, 2020

潜在辅助网络：在强化学习中重新发现双曲正切函数

通过研究激活函数对死神经元和有效秩大小的影响，本文提出了一个新的神经网络结构，并展示了在 Atari 领域中学习速度更快、死神经元减少和有效秩增加的结果。

Jun, 2024

修正饱和激活函数

本文在深度神经网络中研究常用的饱和函数：logistic sigmoid 和双曲正切 (tanh)，发现使用 logistic sigmoid 函数训练困难的原因不仅在于其非零中心属性，还在于其在原点附近的斜率过大。通过适当的重新调整，logistic sigmoid 和 tanh 函数的性能相当。接着，通过在负部分加罚项可以改进 tanh 函数，形成了 “带惩罚的 tanh” 函数，其性能甚至优于 ReLu 和 Leaky ReLU 等饱和函数。本文的结果与之前的研究结论产生冲突，表明有必要进一步研究深度架构中的激活函数。

Feb, 2016