嘈杂的激活函数

Mar, 2016

Noisy Activation Functions

Caglar Gulcehre, Marcin Moczulski, Misha Denil, Yoshua Bengio

TL;DR通过注入适当的噪声来解决神经网络中激活函数饱和行为带来的训练困难，并实现优化过程的探索边缘及难优化目标的最优解。

Abstract

Common nonlinear activation functions used in neural networks can cause training difficulties due to the saturation behavior of the activation function, which may hide dependencies that are not visible to vanilla

neural networks activation functions stochastic gradient descent noise injection optimization

发现论文，激发创造

一个非单调平滑激活函数

本研究提出了一种名为 Sqish 的新型激活函数，作为现有激活函数的替代品，我们展示了它在分类、目标检测、分割任务和对抗性鲁棒性实验中的优越性，在 CIFAR100 数据集上，使用 ShuffleNet V2 模型在 FGSM 对抗攻击中，相较于 ReLU 取得了 8.21% 的改进，并且在 CIFAR100 数据集上，使用 ShuffleNet V2 模型进行图像分类，相较于 ReLU 取得了 5.87% 的改进。

Oct, 2023

饱和非单调激活函数

本文提出了一种新的非单调激活函数 SGELU，SSiLU 和 SMish，它们由 ReLU 的正部分和 GELU、SiLU 和 Mish 的负部分组成。实验结果表明，这些新的激活函数在多个深度学习架构上具有高效性能。

May, 2023

Noisy Softmax：通过推迟早期 Softmax 饱和来提高 DCNN 的泛化能力

本研究提出 Noisy Softmax 方法来解决 CNN 中 softmax 的饱和问题，通过注入退火噪声来推迟 softmax 的饱和，进一步带来连续的梯度传播以鼓励 SGD 求解器更具探索性，并提高 CNN 模型的泛化能力。实验证明这种方法在许多任务中都有很好的优化效果，并在几个流行的基准数据集上取得了最先进的或具有竞争力的结果。

Aug, 2017

在量化嘈杂环境中利用连续可微激活函数进行学习

通过不可微的激活函数如 GELU 和 SiLU，我们能够在存在量化噪声的情况下，实现对卷积、线性和 Transformer 网络的分析和训练，从而提供实现高性能和可靠硬件的适当激活函数选择。

Feb, 2024

标准化激活函数：迈向更好收敛

本论文研究了激活函数对神经网络梯度方差的影响，并提出了一种对激活函数进行归一化的方法，以保持所有层的梯度方差相同，从而提高神经网络的收敛性。研究发现，归一化激活函数可显著提高模型性能。

Aug, 2022

修正饱和激活函数

本文在深度神经网络中研究常用的饱和函数：logistic sigmoid 和双曲正切 (tanh)，发现使用 logistic sigmoid 函数训练困难的原因不仅在于其非零中心属性，还在于其在原点附近的斜率过大。通过适当的重新调整，logistic sigmoid 和 tanh 函数的性能相当。接着，通过在负部分加罚项可以改进 tanh 函数，形成了 “带惩罚的 tanh” 函数，其性能甚至优于 ReLu 和 Leaky ReLU 等饱和函数。本文的结果与之前的研究结论产生冲突，表明有必要进一步研究深度架构中的激活函数。

Feb, 2016

学习激活函数以提高深度神经网络性能

使用自适应激活函数，设计了一种用于改进深层神经网络架构的分段线性激活函数，并在 CIFAR-10 等数据集上取得了最先进的表现。

Dec, 2014

自适应激活函数加速深度和物理学知识神经网络的收敛

采用自适应激活函数进行深度和物理知识神经网络中的回归以逼近光滑和不连续函数以及线性和非线性偏微分方程的解。该方法通过在激活函数中引入可扩展的超参数，并考虑前向问题和反向问题，显着提高了神经网络学习能力和近似解决方案的收敛速度、准确度和鲁棒性。

Jun, 2019

激活函数对深度神经网络训练的影响

通过对「边缘混沌」的理论分析，研究了深度神经网络中各参数的选取对模型训练加速和性能提升的影响。

Feb, 2019

通过噪声使深度神经网络规则化：解释和优化

通过多次噪声注入来提高泛化性能使得深度神经网络可以更好地防止过拟合，本文提出了一种使用随机梯度下降迭代中每个训练样本的多个噪声样本来实现更紧密下界的技术，并在几个计算机视觉应用中展示了其优越性。

Oct, 2017