饱和非单调激活函数

May, 2023

Saturated Non-Monotonic Activation Functions

Junjia Chen, Zhibin Pan

TL;DR本文提出了一种新的非单调激活函数 SGELU，SSiLU 和 SMish，它们由 ReLU 的正部分和 GELU、SiLU 和 Mish 的负部分组成。实验结果表明，这些新的激活函数在多个深度学习架构上具有高效性能。

Abstract

activation functions are essential to deep learning networks. Popular and versatile activation functions are mostly monotonic functions, some non-monotonic →

activation functions non-monotonicity sgelu ssilu smish

发现论文，激发创造

一个非单调平滑激活函数

本研究提出了一种名为 Sqish 的新型激活函数，作为现有激活函数的替代品，我们展示了它在分类、目标检测、分割任务和对抗性鲁棒性实验中的优越性，在 CIFAR100 数据集上，使用 ShuffleNet V2 模型在 FGSM 对抗攻击中，相较于 ReLU 取得了 8.21% 的改进，并且在 CIFAR100 数据集上，使用 ShuffleNet V2 模型进行图像分类，相较于 ReLU 取得了 5.87% 的改进。

Oct, 2023

修正饱和激活函数

本文在深度神经网络中研究常用的饱和函数：logistic sigmoid 和双曲正切 (tanh)，发现使用 logistic sigmoid 函数训练困难的原因不仅在于其非零中心属性，还在于其在原点附近的斜率过大。通过适当的重新调整，logistic sigmoid 和 tanh 函数的性能相当。接着，通过在负部分加罚项可以改进 tanh 函数，形成了 “带惩罚的 tanh” 函数，其性能甚至优于 ReLu 和 Leaky ReLU 等饱和函数。本文的结果与之前的研究结论产生冲突，表明有必要进一步研究深度架构中的激活函数。

Feb, 2016

高斯错误线性单元 (GELUs)

本文提出了高性能的神经网络激活函数 ——Gaussian Error Linear Unit（GELU），它的非线性性能优于 ReLU 和 ELU，并在所有涉及的计算机视觉、自然语言处理和语音任务中均实现了性能提升。

Jun, 2016

深度学习中的 GELU 激活函数：全面的数学分析和性能评估

本文通过数学方法详细地探究了 GELU 激活函数的不同 iability，boundedness，stationarity 和 smoothness 属性，并在 CIFAR-10、CIFAR-100 和 STL-10 数据集上进行了广泛的实验比较，结果表明 GELU 比其他激活函数具有更好的性能，为深度学习应用提供了一种适用的激活函数选择。

May, 2023

在量化嘈杂环境中利用连续可微激活函数进行学习

通过不可微的激活函数如 GELU 和 SiLU，我们能够在存在量化噪声的情况下，实现对卷积、线性和 Transformer 网络的分析和训练，从而提供实现高性能和可靠硬件的适当激活函数选择。

Feb, 2024

约束单调神经网络

本文采用原始激活函数和其点反射组合建立单调深度神经网络，实现最少参数，无需修改学习流程或后续步骤，在精度方面表现优异。

May, 2022

非线性增强的自适应激活函数

通过引入具有偶次立方非线性的简单实现的激活函数，可以提高神经网络的准确性，而不需要大量的计算资源。这部分是通过收敛性和准确性之间的显著折衷来实现的。该激活函数通过引入可优化参数来增加标准 RELU 函数的自由度，从而调整非线性程度。通过与标准技术的比较，利用 MNIST 数字数据集量化了相关的准确性提升。

Mar, 2024

通用激活：多变量投影

基于结构相似性，通过将 ReLU 替换为广义投影算子，将其扩展为具有多个输入和多个输出的多元投影单元 (MPU)，证明了在表达能力方面，由 SOC 投影激活的 FNN 优于利用 ReLU 的 FNN。实验评估进一步证实了 MPU 在更广泛的现有激活函数范围内的有效性。

Sep, 2023

嘈杂的激活函数

通过注入适当的噪声来解决神经网络中激活函数饱和行为带来的训练困难，并实现优化过程的探索边缘及难优化目标的最优解。

Mar, 2016

深度网络近似：超越 ReLU，使用多样激活函数

本文研究深度神经网络对各种激活函数的表达能力，并证明可在任意有界集合上以稍大的常数精度近似任意激活函数的神经网络。

Jul, 2023