修正饱和激活函数

Feb, 2016

Revise Saturated Activation Functions

Bing Xu, Ruitong Huang, Mu Li

TL;DR本文在深度神经网络中研究常用的饱和函数：logistic sigmoid 和双曲正切 (tanh)，发现使用 logistic sigmoid 函数训练困难的原因不仅在于其非零中心属性，还在于其在原点附近的斜率过大。通过适当的重新调整，logistic sigmoid 和 tanh 函数的性能相当。接着，通过在负部分加罚项可以改进 tanh 函数，形成了 “带惩罚的 tanh” 函数，其性能甚至优于 ReLu 和 Leaky ReLU 等饱和函数。本文的结果与之前的研究结论产生冲突，表明有必要进一步研究深度架构中的激活函数。

Abstract

In this paper, we revise two commonly used saturated functions, the logistic sigmoid and the hyperbolic tangent (tanh). We point out that, besides the well-known non-zero centered property, slope of the activation function near the origin is another possible reason making training deep

activation functions logistic sigmoid hyperbolic tangent deep neural networks penalized tanh

发现论文，激发创造

饱和非单调激活函数

本文提出了一种新的非单调激活函数 SGELU，SSiLU 和 SMish，它们由 ReLU 的正部分和 GELU、SiLU 和 Mish 的负部分组成。实验结果表明，这些新的激活函数在多个深度学习架构上具有高效性能。

May, 2023

潜在辅助网络：在强化学习中重新发现双曲正切函数

通过研究激活函数对死神经元和有效秩大小的影响，本文提出了一个新的神经网络结构，并展示了在 Atari 领域中学习速度更快、死神经元减少和有效秩增加的结果。

Jun, 2024

神经网络激活函数的经验损失景观分析

此研究对与神经网络有关的损失景观进行了实证调查，发现修正线性单元产生最凸的损失景观，而指数线性单元产生最不平坦的损失景观，且表现出优越的泛化性能。

Jun, 2023

神经网络中 S 形非线性函数的线性界限函数自动设计

通过使用一种简单的搜索方法，精心地根据最先进的算法配置技术调整给定的验证问题，我们提出了一种新颖的参数搜索方法来改进这些线性逼近的质量，进而在几个常用的本地鲁棒性验证基准上平均提高了 25% 的全局下界。

Jun, 2024

学习激活函数的组合

本文介绍了两种自动学习不同激活函数组合的方法，并在三个标准数据集上与著名的体系结构进行了比较，显示了整体性能的显着改进。

Jan, 2018

标准化激活函数：迈向更好收敛

本论文研究了激活函数对神经网络梯度方差的影响，并提出了一种对激活函数进行归一化的方法，以保持所有层的梯度方差相同，从而提高神经网络的收敛性。研究发现，归一化激活函数可显著提高模型性能。

Aug, 2022

参数泄漏双曲正切：一种用于深度学习的新型混合激活函数

本文在深度神经网络中提出了 Parametric Leaky Tanh（PLTanh）作为一种新的混合激活函数，结合了 Tanh 和 Leaky ReLU 激活函数的优势，通过保证负输入的梯度非零，解决了 'dying ReLU' 问题，并通过与 ReLU、LReLU 和 ALReLU 在五个不同数据集上的实证评估，展示了 PLTanh 的优势。

Aug, 2023

在数据约束下，利用平方 Sigmoid TanH（SST）激活增强顺序模型性能

我们提出了一种名为 SST 激活函数的方法，用于增强顺序模型在数据约束下的学习能力，并通过对手势语言识别、回归和时间序列分类等任务的实验验证，表明 SST 模型相比基线激活的循环神经网络模型具有更好的测试准确性。

Feb, 2024

比 ReLU 类激活函数显著更好的一类激活函数

介绍了两种新的激活函数，Cone 和 Parabolic-Cone，相较于常用的 ReLU 和 Sigmoidal 类激活函数，在 CIFAR-10 和 Imagenette 两个基准测试中明显表现更好。这些激活函数在有限区间内为正，且在区间的端点处变为零，使得神经元可以更精细地将输入特征空间划分为正类和负类，通过较少的超带学习 XOR 函数，并且在基准测试中达到更高的准确率。此研究表明，在许多非线性真实世界的数据集中，相较于半空间，较少的超带可以实现数据的分离，并且 Cone 和 Parabolic-Cone 激活函数具有更大的导数，加速了训练过程。

May, 2024

深度网络近似：超越 ReLU，使用多样激活函数

本文研究深度神经网络对各种激活函数的表达能力，并证明可在任意有界集合上以稍大的常数精度近似任意激活函数的神经网络。

Jul, 2023