在量化嘈杂环境中利用连续可微激活函数进行学习
本文通过数学方法详细地探究了 GELU 激活函数的不同 iability,boundedness,stationarity 和 smoothness 属性,并在 CIFAR-10、CIFAR-100 和 STL-10 数据集上进行了广泛的实验比较,结果表明 GELU 比其他激活函数具有更好的性能,为深度学习应用提供了一种适用的激活函数选择。
May, 2023
本文提出了高性能的神经网络激活函数 ——Gaussian Error Linear Unit(GELU),它的非线性性能优于 ReLU 和 ELU,并在所有涉及的计算机视觉、自然语言处理和语音任务中均实现了性能提升。
Jun, 2016
本文提出了一种新的非单调激活函数 SGELU,SSiLU 和 SMish,它们由 ReLU 的正部分和 GELU、SiLU 和 Mish 的负部分组成。实验结果表明,这些新的激活函数在多个深度学习架构上具有高效性能。
May, 2023
通过移除 SWIN Transformer 中的 GELU 激活,并用 ReLU 激活代替,我们使用迭代式知识蒸馏方法,在保持准确度下降低于 0.5% 的同时,至少提高了 11% 的量化 SWIN Transformer 的推理延迟。
Feb, 2024
探索使用反正切作为门控机制的自门控激活函数,该函数具有单调递增的一阶导数,通过引入每个 MLP 块的可训练参数来扩展门控函数的范围,实验证明这种技术改善了现有的自门控激活函数,并在 Transformer 架构中显示出优越性能。扩展的门控范围还显示了改善一阶门控线性单元 (GLU) 的有希望的结果。
May, 2024
介绍了一种针对深度神经网络进行有监督训练、无监督训练以及强化学习的新算法,运用标准随机梯度下降法和梯度剪裁法对神经网络进行更新,提出了一种稳定输出层且范围明确的新型激活函数,得出结论:神经网络的更新值稳定,训练更加精确与流畅。
May, 2023
这篇论文研究了大语言模型在资源受限设备上推断计算中的挑战与改进方法,通过重新引入 ReLU 激活函数并探索其稀疏模式,作者提出了一种实用的策略,可以显著减少推断计算量,达到三倍的性能提升。
Oct, 2023
本研究探讨了利用组合电路高效实现非线性激活函数(如 SELU 和 tanh)的方法,在 MNIST、CIFAR-10 和 IMAGENET 基准测试中表现出很高的效率和精度,相比于 LUT / 存储器实现可以节省 3.13-7.69 和 4.45-8:45 的面积,能够分别在 5.14GHz 和 4.52GHz 的时钟频率下运行。
Sep, 2018