高斯错误线性单元 (GELUs)

MMJun, 2016

Gaussian Error Linear Units (GELUs)

Dan Hendrycks, Kevin Gimpel

TL;DR本文提出了高性能的神经网络激活函数 ——Gaussian Error Linear Unit（GELU），它的非线性性能优于 ReLU 和 ELU，并在所有涉及的计算机视觉、自然语言处理和语音任务中均实现了性能提升。

Abstract

We propose the gaussian error linear unit (GELU), a high-performing neural network activation function. The GELU activation function is $x\Phi(x)$, where $\Phi(x)$ the standard Gaussian cumulative distribution function. The GELU nonlinearity weights inputs by their value, rather than g

gaussian error linear unit neural network activation function computer vision natural language processing speech tasks

发现论文，激发创造

深度学习中的 GELU 激活函数：全面的数学分析和性能评估

本文通过数学方法详细地探究了 GELU 激活函数的不同 iability，boundedness，stationarity 和 smoothness 属性，并在 CIFAR-10、CIFAR-100 和 STL-10 数据集上进行了广泛的实验比较，结果表明 GELU 比其他激活函数具有更好的性能，为深度学习应用提供了一种适用的激活函数选择。

May, 2023

饱和非单调激活函数

本文提出了一种新的非单调激活函数 SGELU，SSiLU 和 SMish，它们由 ReLU 的正部分和 GELU、SiLU 和 Mish 的负部分组成。实验结果表明，这些新的激活函数在多个深度学习架构上具有高效性能。

May, 2023

稳定且鲁棒的深度学习方法：双曲正切指数线性单元（TeLU）

引入了 Hyperbolic Tangent Exponential Linear Unit（TeLU）作为一种新的神经网络激活函数，通过解决渐变消失和渐变爆炸问题，提高了稳定性和鲁棒性，在各种深度学习应用中表现出卓越的性能，将其视为潜在的新标准。

Feb, 2024

指数线性单元（ELUs）加速和提高深层网络学习的准确性

引入了 “指数线性单元”（ELU），可以提高深度神经网络的学习速度和分类准确性，相较于其他激活函数，ELU 具有更好的学习特征和更低的计算复杂度，能够在输入数据中编码特定现象的存在程度，并在实验中取得比其他激活函数更快的学习和更好的泛化表现，是目前 CIFAR-100 最好的分类结果之一。

Nov, 2015

在量化嘈杂环境中利用连续可微激活函数进行学习

通过不可微的激活函数如 GELU 和 SiLU，我们能够在存在量化噪声的情况下，实现对卷积、线性和 Transformer 网络的分析和训练，从而提供实现高性能和可靠硬件的适当激活函数选择。

Feb, 2024

避免核心定点：使用 ELU 和 GELU 无限网络计算

本文章提出了一种新的方法来推导多层感知器的协方差函数，并研究了具有不同激活函数的神经网络的固定点动力学，结果表明这些新的核展现出在有限宽度神经网络中被反映的非平凡的固定点动力学，这些网络中存在的固定点行为解释了过参数化的深度模型中的隐式正则化机制。

Feb, 2020

在 Transformer 中重用 Softmax 硬件单元进行 GELU 计算

通过将 GELU 计算映射到 softmax 运算符，本文提出了一种在硬件中重新利用预设计的 softmax 硬件单元来计算 GELU 的方法，实验结果证明这种方法不会减少代表性自然语言处理应用的准确性，并且可以平均降低 6.1% 的硬件面积和 11.9% 的功耗。

Feb, 2024

连续可微的指数线性单元

本文提出了一种 ELU 的可替代参数化方法，具有较原有参数化方法不具备的有用属性，易于操作和调整，是一种用于构建深度学习架构的有价值的整流器。

Apr, 2017

深度卷积神经网络参数化的指数线性单元

提出了一种参数化 ELU 激活函数的方法以学习 CNN 中每层的恰当激活形状，实验结果表明，参数化的 ELU 在目标识别任务中相对误差较小，性能更优。

May, 2016

解耦门控线性

研究了 ReLU 神经网络，引入了一种简化的模型，即门控线性单元（GaLU），并证明使用 GaLU 神经网络比使用 ReLU 神经网络更容易得到更强的优化和泛化结果，且当某些场景下，GaLU 网络与 ReLU 网络的行为相似。

Jun, 2019