扩展的门控范围改善激活函数
本文通过数学方法详细地探究了 GELU 激活函数的不同 iability,boundedness,stationarity 和 smoothness 属性,并在 CIFAR-10、CIFAR-100 和 STL-10 数据集上进行了广泛的实验比较,结果表明 GELU 比其他激活函数具有更好的性能,为深度学习应用提供了一种适用的激活函数选择。
May, 2023
引入了 Hyperbolic Tangent Exponential Linear Unit(TeLU)作为一种新的神经网络激活函数,通过解决渐变消失和渐变爆炸问题,提高了稳定性和鲁棒性,在各种深度学习应用中表现出卓越的性能,将其视为潜在的新标准。
Feb, 2024
本文提出了一种新的非单调激活函数 SGELU,SSiLU 和 SMish,它们由 ReLU 的正部分和 GELU、SiLU 和 Mish 的负部分组成。实验结果表明,这些新的激活函数在多个深度学习架构上具有高效性能。
May, 2023
本研究测试了变化的 GLU,其中用不同的非线性(或线性)函数代替 sigmoid,发现其中一些在 Transformer 的前馈子层中使用比通常使用的 ReLU 或 GELU 激活函数有质量改进。
Feb, 2020
本文提出了高性能的神经网络激活函数 ——Gaussian Error Linear Unit(GELU),它的非线性性能优于 ReLU 和 ELU,并在所有涉及的计算机视觉、自然语言处理和语音任务中均实现了性能提升。
Jun, 2016
本研究探讨了利用组合电路高效实现非线性激活函数(如 SELU 和 tanh)的方法,在 MNIST、CIFAR-10 和 IMAGENET 基准测试中表现出很高的效率和精度,相比于 LUT / 存储器实现可以节省 3.13-7.69 和 4.45-8:45 的面积,能够分别在 5.14GHz 和 4.52GHz 的时钟频率下运行。
Sep, 2018
本文研究使用一种名为 TaLU 的激活函数来提高深度学习模型的分类准确度,该激活函数是 Tanh 和 ReLU 的组合,能够缓解 ReLU 的梯度消失问题,并在 MNIST 和 CIFAR-10 数据集上实现了 0%至 6%不等的准确度提高。
May, 2023
通过不可微的激活函数如 GELU 和 SiLU,我们能够在存在量化噪声的情况下,实现对卷积、线性和 Transformer 网络的分析和训练,从而提供实现高性能和可靠硬件的适当激活函数选择。
Feb, 2024
我们提出了一种统一的神经网络激活函数表示形式,采用分数阶微积分的 Mittag-Leffler 函数,该形式能够插值不同的激活函数并减轻神经网络训练中普遍存在的梯度消失和梯度爆炸等问题。使用 Lenet-5 神经网络在 MNIST 和 CIFAR-10 数据集上训练,我们证明采用统一的门控表示法是传统机器学习框架中内置的激活函数实现的一种有前途且经济的替代方案。
Feb, 2023