GLU 变体改进 Transformer
该研究探讨了利用门控线性单元激活的多层感知器架构替代传统 Transformer 架构中通常采用的注意力机制,以及进一步减少计算成本的方法,实验结果表明这些修改和减少都能在设计 Transformer 架构的核心组件中提供具有竞争力的性能。
May, 2024
探索使用反正切作为门控机制的自门控激活函数,该函数具有单调递增的一阶导数,通过引入每个 MLP 块的可训练参数来扩展门控函数的范围,实验证明这种技术改善了现有的自门控激活函数,并在 Transformer 架构中显示出优越性能。扩展的门控范围还显示了改善一阶门控线性单元 (GLU) 的有希望的结果。
May, 2024
我们提出了一种新颖的变压器变体,在注意力块中集成了非线性处理,以解决在图像分类任务中并行运行 MLP 和注意力块导致性能下降的问题。我们的实验结果表明,基于 GLU 的激活函数超过了当前的 Vision Transformers 在 ImageNet-1K 数据集上的 S / 16 变体,同时使用更少的参数,且超过了 B / 16 变体使用仅一半的参数。此外,我们还展示了使用 GELU 激活函数变体来验证我们的断言。最后,我们证明了 MABViT 变体在深度变压器中的潜力超过了标准结构。
Dec, 2023
本文提出了高性能的神经网络激活函数 ——Gaussian Error Linear Unit(GELU),它的非线性性能优于 ReLU 和 ELU,并在所有涉及的计算机视觉、自然语言处理和语音任务中均实现了性能提升。
Jun, 2016
研究了 ReLU 神经网络,引入了一种简化的模型,即门控线性单元(GaLU),并证明使用 GaLU 神经网络比使用 ReLU 神经网络更容易得到更强的优化和泛化结果,且当某些场景下,GaLU 网络与 ReLU 网络的行为相似。
Jun, 2019
通过将 GELU 计算映射到 softmax 运算符,本文提出了一种在硬件中重新利用预设计的 softmax 硬件单元来计算 GELU 的方法,实验结果证明这种方法不会减少代表性自然语言处理应用的准确性,并且可以平均降低 6.1% 的硬件面积和 11.9% 的功耗。
Feb, 2024
通过不可微的激活函数如 GELU 和 SiLU,我们能够在存在量化噪声的情况下,实现对卷积、线性和 Transformer 网络的分析和训练,从而提供实现高性能和可靠硬件的适当激活函数选择。
Feb, 2024
本文通过数学方法详细地探究了 GELU 激活函数的不同 iability,boundedness,stationarity 和 smoothness 属性,并在 CIFAR-10、CIFAR-100 和 STL-10 数据集上进行了广泛的实验比较,结果表明 GELU 比其他激活函数具有更好的性能,为深度学习应用提供了一种适用的激活函数选择。
May, 2023
该论文介绍了一种新的神经网络结构,Gated Linear Networks (GLNs),其区别于当代神经网络的地方是,其信用分配机制具有分布式和本地化特性;每个神经元都直接预测目标,放弃了学习特征表示的能力,而选择快速在线学习。使用数据相关门控和在线凸优化,个别神经元可以建模非线性函数。该论文证明了该架构在极限情况下具有普遍的学习能力,并且有效的模型容量随着网络大小的增加而增加,与深度 ReLU 网络相似。此外,该论文证明 GLN 学习机制具有非常强的抗遗忘能力,在标准基准测试中表现与带有 dropout 和 Elastic Weight Consolidation 的 MLP 相当。这些理论和实证特性将 GLNs 定位为当代离线深度学习方法的补充技术。
Sep, 2019
利用三阶张量和线性操作的方法,将双线性层分解为一组稀疏交互特征向量,展示了在浅层图像分类器(MNIST)和小型语言模型(Tiny Stories)的初步实验中具有有希望的解释性性质。这种分解与模型原始计算完全等价,因此双线性层可能是一种具有解释性友好结构,可以将特征与模型权重相连接。我们的方法的应用不仅限于预训练的双线性模型,因为我们发现语言模型(如 TinyLlama-1.1B)可以微调为双线性变体。
Jun, 2024