嘈杂的激活函数
本研究提出了一种名为 Sqish 的新型激活函数,作为现有激活函数的替代品,我们展示了它在分类、目标检测、分割任务和对抗性鲁棒性实验中的优越性,在 CIFAR100 数据集上,使用 ShuffleNet V2 模型在 FGSM 对抗攻击中,相较于 ReLU 取得了 8.21% 的改进,并且在 CIFAR100 数据集上,使用 ShuffleNet V2 模型进行图像分类,相较于 ReLU 取得了 5.87% 的改进。
Oct, 2023
本文提出了一种新的非单调激活函数 SGELU,SSiLU 和 SMish,它们由 ReLU 的正部分和 GELU、SiLU 和 Mish 的负部分组成。实验结果表明,这些新的激活函数在多个深度学习架构上具有高效性能。
May, 2023
本研究提出 Noisy Softmax 方法来解决 CNN 中 softmax 的饱和问题,通过注入退火噪声来推迟 softmax 的饱和,进一步带来连续的梯度传播以鼓励 SGD 求解器更具探索性,并提高 CNN 模型的泛化能力。实验证明这种方法在许多任务中都有很好的优化效果,并在几个流行的基准数据集上取得了最先进的或具有竞争力的结果。
Aug, 2017
通过不可微的激活函数如 GELU 和 SiLU,我们能够在存在量化噪声的情况下,实现对卷积、线性和 Transformer 网络的分析和训练,从而提供实现高性能和可靠硬件的适当激活函数选择。
Feb, 2024
本论文研究了激活函数对神经网络梯度方差的影响,并提出了一种对激活函数进行归一化的方法,以保持所有层的梯度方差相同,从而提高神经网络的收敛性。研究发现,归一化激活函数可显著提高模型性能。
Aug, 2022
本文在深度神经网络中研究常用的饱和函数:logistic sigmoid 和双曲正切 (tanh),发现使用 logistic sigmoid 函数训练困难的原因不仅在于其非零中心属性,还在于其在原点附近的斜率过大。通过适当的重新调整,logistic sigmoid 和 tanh 函数的性能相当。接着,通过在负部分加罚项可以改进 tanh 函数,形成了 “带惩罚的 tanh” 函数,其性能甚至优于 ReLu 和 Leaky ReLU 等饱和函数。本文的结果与之前的研究结论产生冲突,表明有必要进一步研究深度架构中的激活函数。
Feb, 2016
采用自适应激活函数进行深度和物理知识神经网络中的回归以逼近光滑和不连续函数以及线性和非线性偏微分方程的解。该方法通过在激活函数中引入可扩展的超参数,并考虑前向问题和反向问题,显着提高了神经网络学习能力和近似解决方案的收敛速度、准确度和鲁棒性。
Jun, 2019
通过多次噪声注入来提高泛化性能使得深度神经网络可以更好地防止过拟合,本文提出了一种使用随机梯度下降迭代中每个训练样本的多个噪声样本来实现更紧密下界的技术,并在几个计算机视觉应用中展示了其优越性。
Oct, 2017