扩展的门控范围改善激活函数

May, 2024

Expanded Gating Ranges Improve Activation Functions

Allen Hao Huang

TL;DR探索使用反正切作为门控机制的自门控激活函数，该函数具有单调递增的一阶导数，通过引入每个 MLP 块的可训练参数来扩展门控函数的范围，实验证明这种技术改善了现有的自门控激活函数，并在 Transformer 架构中显示出优越性能。扩展的门控范围还显示了改善一阶门控线性单元 (GLU) 的有希望的结果。

Abstract

activation functions are core components of all deep learning architectures. Currently, the most popular activation functions are smooth ReLU variants like GELU and SiLU. These are self-gated →

activation functions arctan self-gated activation functions trainable parameter transformer architecture

发现论文，激发创造

深度学习中的 GELU 激活函数：全面的数学分析和性能评估

本文通过数学方法详细地探究了 GELU 激活函数的不同 iability，boundedness，stationarity 和 smoothness 属性，并在 CIFAR-10、CIFAR-100 和 STL-10 数据集上进行了广泛的实验比较，结果表明 GELU 比其他激活函数具有更好的性能，为深度学习应用提供了一种适用的激活函数选择。

May, 2023

稳定且鲁棒的深度学习方法：双曲正切指数线性单元（TeLU）

引入了 Hyperbolic Tangent Exponential Linear Unit（TeLU）作为一种新的神经网络激活函数，通过解决渐变消失和渐变爆炸问题，提高了稳定性和鲁棒性，在各种深度学习应用中表现出卓越的性能，将其视为潜在的新标准。

Feb, 2024

饱和非单调激活函数

本文提出了一种新的非单调激活函数 SGELU，SSiLU 和 SMish，它们由 ReLU 的正部分和 GELU、SiLU 和 Mish 的负部分组成。实验结果表明，这些新的激活函数在多个深度学习架构上具有高效性能。

May, 2023

GLU 变体改进 Transformer

本研究测试了变化的 GLU，其中用不同的非线性（或线性）函数代替 sigmoid，发现其中一些在 Transformer 的前馈子层中使用比通常使用的 ReLU 或 GELU 激活函数有质量改进。

Feb, 2020

深度网络近似：超越 ReLU，使用多样激活函数

本文研究深度神经网络对各种激活函数的表达能力，并证明可在任意有界集合上以稍大的常数精度近似任意激活函数的神经网络。

Jul, 2023

高斯错误线性单元 (GELUs)

本文提出了高性能的神经网络激活函数 ——Gaussian Error Linear Unit（GELU），它的非线性性能优于 ReLU 和 ELU，并在所有涉及的计算机视觉、自然语言处理和语音任务中均实现了性能提升。

Jun, 2016

神经网络激活函数电路的设计空间探索

本研究探讨了利用组合电路高效实现非线性激活函数（如 SELU 和 tanh）的方法，在 MNIST、CIFAR-10 和 IMAGENET 基准测试中表现出很高的效率和精度，相比于 LUT / 存储器实现可以节省 3.13-7.69 和 4.45-8:45 的面积，能够分别在 5.14GHz 和 4.52GHz 的时钟频率下运行。

Sep, 2018

TaLU: 一种混合 Tanh 和 ReLU 的激活函数，用于增强神经网络

本文研究使用一种名为 TaLU 的激活函数来提高深度学习模型的分类准确度，该激活函数是 Tanh 和 ReLU 的组合，能够缓解 ReLU 的梯度消失问题，并在 MNIST 和 CIFAR-10 数据集上实现了 0％至 6％不等的准确度提高。

May, 2023

在量化嘈杂环境中利用连续可微激活函数进行学习

通过不可微的激活函数如 GELU 和 SiLU，我们能够在存在量化噪声的情况下，实现对卷积、线性和 Transformer 网络的分析和训练，从而提供实现高性能和可靠硬件的适当激活函数选择。

Feb, 2024

流行人工神经网络激活函数的统一

我们提出了一种统一的神经网络激活函数表示形式，采用分数阶微积分的 Mittag-Leffler 函数，该形式能够插值不同的激活函数并减轻神经网络训练中普遍存在的梯度消失和梯度爆炸等问题。使用 Lenet-5 神经网络在 MNIST 和 CIFAR-10 数据集上训练，我们证明采用统一的门控表示法是传统机器学习框架中内置的激活函数实现的一种有前途且经济的替代方案。

Feb, 2023