可学习激活函数的 Transformer

ACLAug, 2022

Transformers with Learnable Activation Functions

Haishuo Fang, Ji-Ung Lee, Nafise Sadat Moosavi, Iryna Gurevych

TL;DR本研究探讨了在 Transformer 架构中使用可学习激活函数 Rational Activation Function（RAF）的有效性，并表明基于 RAF 的 Transformer（RAFT）相对于使用 GELU 函数的原始 BERT 达到更低的验证复杂度。在低数据场景和全数据设置下的下游任务中，RAFT 都优于对应的模型，并且 RAF 的形状在不同的层之间有显著的差别，这为分析和解释预训练模型打开了新的研究方向。

Abstract

activation functions can have a significant impact on reducing the topological complexity of input data and therefore improve the performance of the model. Selecting a suitable activation function is an essential step in neural model design. However, the choice of activation function i

activation functions transformer-based language models rational activation function raft downstream tasks

发现论文，激发创造

探索关系：变换自适应激活函数与其他激活函数的比较

TAAFs 是一种具有任意垂直和水平平移缩放的新型自适应激活函数，它广义地归纳了 50 多种现有激活函数和 70 多种其他激活函数的类似概念，证明了其作为一种有前景且适应性强的神经网络增强方法。

Feb, 2024

ErfReLU: 深度神经网络自适应激活函数

本文介绍了一种基于 Erf 函数和 ReLU 的新型激活函数 'ErfReLU'，并比较了其与其他 9 种可训练激活函数在 CIFAR-10，MNIST 和 FMNIST 基准数据集上应用于 MobileNet，VGG16，ResNet 模型的性能分析。

Jun, 2023

采用随机激活函数实现鲁棒的不确定性估计

本文提出了一种新颖的集合方法，称为 RAFs Ensemble，通过为每个神经网络提供不同的（随机）激活函数来改进其集合多样性以进行不确定性量化，并在一系列回归任务中证明了 RAFs Ensemble 在合成和实际数据集上优于最先进的集合不确定性量化方法。

Feb, 2023

对抗鲁棒性的激活函数参数化

通过采用可学习的参数激活函数（PAFs），我们研究了使用 PSSiLU 以提高加性训练鲁棒性的影响。我们发现，PAFs 优化了影响鲁棒性的激活函数形状属性，而且仅引入 1-2 个可学习参数的光滑 PAFs 可以显著地提高鲁棒性。

Oct, 2021

一种寻找更好激活函数的方法

通过信息熵的角度，本研究理论上证明了存在具有边界条件的最差激活函数，提出了基于熵的激活函数优化方法（EAFO），并从 ReLU 中推导出了一种新的激活函数 CRReLU。实验证明 CRReLU 在深度神经网络中表现优异，并在大型语言模型细调任务中展现出与 GELU 相比的卓越性能，显示其广泛的实际应用潜力。

May, 2024

深度学习中的激活函数：综述和基准比较

本论文综述了深度学习神经网络中激活函数的综合评估与调查，并对不同类型的激活函数进行了分类和性能比较。

Sep, 2021

现代可训练激活函数调查

本文系统总结了神经网络领域可训练激活函数的不同模型，提出了这类函数的分类法，并探讨了其优缺点，进一步表明这些方法很多等价于添加使用固定（不可训练）激活函数和一些简单的局部规则来约束相应的权重层的神经元层，从而促进了神经网络的性能。

May, 2020

发现参数激活函数

本文提出了一种使用进化搜索和梯度下降优化参数的方法来自动定制激活函数，实现对深度学习网络性能的可靠优化，验证结果表明该方法可以用作新任务的自动优化步骤。

Jun, 2020

潜在辅助网络：在强化学习中重新发现双曲正切函数

通过研究激活函数对死神经元和有效秩大小的影响，本文提出了一个新的神经网络结构，并展示了在 Atari 领域中学习速度更快、死神经元减少和有效秩增加的结果。

Jun, 2024

学习激活函数以提高深度神经网络性能

使用自适应激活函数，设计了一种用于改进深层神经网络架构的分段线性激活函数，并在 CIFAR-10 等数据集上取得了最先进的表现。

Dec, 2014