GLU 变体改进 Transformer

Feb, 2020

GLU Variants Improve Transformer

Noam Shazeer

TL;DR本研究测试了变化的 GLU，其中用不同的非线性（或线性）函数代替 sigmoid，发现其中一些在 Transformer 的前馈子层中使用比通常使用的 ReLU 或 GELU 激活函数有质量改进。

Abstract

gated linear units (arXiv:1612.08083) consist of the component-wise product of two linear projections, one of which is first passed through a sigmoid function. Variations on glu are possible, using different nonl

gated linear units glu transformer sequence-to-sequence model nonlinear functions

发现论文，激发创造

激活器：GLU 激活作为视觉转换器的核心功能

该研究探讨了利用门控线性单元激活的多层感知器架构替代传统 Transformer 架构中通常采用的注意力机制，以及进一步减少计算成本的方法，实验结果表明这些修改和减少都能在设计 Transformer 架构的核心组件中提供具有竞争力的性能。

May, 2024

扩展的门控范围改善激活函数

探索使用反正切作为门控机制的自门控激活函数，该函数具有单调递增的一阶导数，通过引入每个 MLP 块的可训练参数来扩展门控函数的范围，实验证明这种技术改善了现有的自门控激活函数，并在 Transformer 架构中显示出优越性能。扩展的门控范围还显示了改善一阶门控线性单元 (GLU) 的有希望的结果。

May, 2024

MABViT - 改进的注意力模块增强视觉 Transformer

我们提出了一种新颖的变压器变体，在注意力块中集成了非线性处理，以解决在图像分类任务中并行运行 MLP 和注意力块导致性能下降的问题。我们的实验结果表明，基于 GLU 的激活函数超过了当前的 Vision Transformers 在 ImageNet-1K 数据集上的 S / 16 变体，同时使用更少的参数，且超过了 B / 16 变体使用仅一半的参数。此外，我们还展示了使用 GELU 激活函数变体来验证我们的断言。最后，我们证明了 MABViT 变体在深度变压器中的潜力超过了标准结构。

Dec, 2023

高斯错误线性单元 (GELUs)

本文提出了高性能的神经网络激活函数 ——Gaussian Error Linear Unit（GELU），它的非线性性能优于 ReLU 和 ELU，并在所有涉及的计算机视觉、自然语言处理和语音任务中均实现了性能提升。

Jun, 2016

解耦门控线性

研究了 ReLU 神经网络，引入了一种简化的模型，即门控线性单元（GaLU），并证明使用 GaLU 神经网络比使用 ReLU 神经网络更容易得到更强的优化和泛化结果，且当某些场景下，GaLU 网络与 ReLU 网络的行为相似。

Jun, 2019

在 Transformer 中重用 Softmax 硬件单元进行 GELU 计算

通过将 GELU 计算映射到 softmax 运算符，本文提出了一种在硬件中重新利用预设计的 softmax 硬件单元来计算 GELU 的方法，实验结果证明这种方法不会减少代表性自然语言处理应用的准确性，并且可以平均降低 6.1% 的硬件面积和 11.9% 的功耗。

Feb, 2024

在量化嘈杂环境中利用连续可微激活函数进行学习

通过不可微的激活函数如 GELU 和 SiLU，我们能够在存在量化噪声的情况下，实现对卷积、线性和 Transformer 网络的分析和训练，从而提供实现高性能和可靠硬件的适当激活函数选择。

Feb, 2024

深度学习中的 GELU 激活函数：全面的数学分析和性能评估

本文通过数学方法详细地探究了 GELU 激活函数的不同 iability，boundedness，stationarity 和 smoothness 属性，并在 CIFAR-10、CIFAR-100 和 STL-10 数据集上进行了广泛的实验比较，结果表明 GELU 比其他激活函数具有更好的性能，为深度学习应用提供了一种适用的激活函数选择。

May, 2023

门控线性网络

该论文介绍了一种新的神经网络结构，Gated Linear Networks (GLNs)，其区别于当代神经网络的地方是，其信用分配机制具有分布式和本地化特性；每个神经元都直接预测目标，放弃了学习特征表示的能力，而选择快速在线学习。使用数据相关门控和在线凸优化，个别神经元可以建模非线性函数。该论文证明了该架构在极限情况下具有普遍的学习能力，并且有效的模型容量随着网络大小的增加而增加，与深度 ReLU 网络相似。此外，该论文证明 GLN 学习机制具有非常强的抗遗忘能力，在标准基准测试中表现与带有 dropout 和 Elastic Weight Consolidation 的 MLP 相当。这些理论和实证特性将 GLNs 定位为当代离线深度学习方法的补充技术。

Sep, 2019

基于权重分解的双线性多层感知机案例

利用三阶张量和线性操作的方法，将双线性层分解为一组稀疏交互特征向量，展示了在浅层图像分类器（MNIST）和小型语言模型（Tiny Stories）的初步实验中具有有希望的解释性性质。这种分解与模型原始计算完全等价，因此双线性层可能是一种具有解释性友好结构，可以将特征与模型权重相连接。我们的方法的应用不仅限于预训练的双线性模型，因为我们发现语言模型（如 TinyLlama-1.1B）可以微调为双线性变体。

Jun, 2024