在量化嘈杂环境中利用连续可微激活函数进行学习

Feb, 2024

在量化嘈杂环境中利用连续可微激活函数进行学习

Leveraging Continuously Differentiable Activation Functions for Learning in Quantized Noisy Environments

Vivswan Shah, Nathan Youngblood

TL;DR通过不可微的激活函数如 GELU 和 SiLU，我们能够在存在量化噪声的情况下，实现对卷积、线性和 Transformer 网络的分析和训练，从而提供实现高性能和可靠硬件的适当激活函数选择。

Abstract

Real-world analog systems intrinsically suffer from noise that can impede model convergence and accuracy on a variety of deep learning models

analog systems noise deep learning models differentiable activations quantized noise

发现论文，激发创造

深度学习中的 GELU 激活函数：全面的数学分析和性能评估

本文通过数学方法详细地探究了 GELU 激活函数的不同 iability，boundedness，stationarity 和 smoothness 属性，并在 CIFAR-10、CIFAR-100 和 STL-10 数据集上进行了广泛的实验比较，结果表明 GELU 比其他激活函数具有更好的性能，为深度学习应用提供了一种适用的激活函数选择。

May, 2023

高斯错误线性单元 (GELUs)

本文提出了高性能的神经网络激活函数 ——Gaussian Error Linear Unit（GELU），它的非线性性能优于 ReLU 和 ELU，并在所有涉及的计算机视觉、自然语言处理和语音任务中均实现了性能提升。

Jun, 2016

饱和非单调激活函数

本文提出了一种新的非单调激活函数 SGELU，SSiLU 和 SMish，它们由 ReLU 的正部分和 GELU、SiLU 和 Mish 的负部分组成。实验结果表明，这些新的激活函数在多个深度学习架构上具有高效性能。

May, 2023

嘈杂的激活函数

通过注入适当的噪声来解决神经网络中激活函数饱和行为带来的训练困难，并实现优化过程的探索边缘及难优化目标的最优解。

Mar, 2016

通过移除 GELU 激活函数加速整数 SWIN Transformer 的推断

通过移除 SWIN Transformer 中的 GELU 激活，并用 ReLU 激活代替，我们使用迭代式知识蒸馏方法，在保持准确度下降低于 0.5% 的同时，至少提高了 11% 的量化 SWIN Transformer 的推理延迟。

Feb, 2024

扩展的门控范围改善激活函数

探索使用反正切作为门控机制的自门控激活函数，该函数具有单调递增的一阶导数，通过引入每个 MLP 块的可训练参数来扩展门控函数的范围，实验证明这种技术改善了现有的自门控激活函数，并在 Transformer 架构中显示出优越性能。扩展的门控范围还显示了改善一阶门控线性单元 (GLU) 的有希望的结果。

May, 2024

深度前馈网络的稳定和一致训练的证明框架

介绍了一种针对深度神经网络进行有监督训练、无监督训练以及强化学习的新算法，运用标准随机梯度下降法和梯度剪裁法对神经网络进行更新，提出了一种稳定输出层且范围明确的新型激活函数，得出结论：神经网络的更新值稳定，训练更加精确与流畅。

May, 2023

ReLU 反击：在大型语言模型中利用激活稀疏性

这篇论文研究了大语言模型在资源受限设备上推断计算中的挑战与改进方法，通过重新引入 ReLU 激活函数并探索其稀疏模式，作者提出了一种实用的策略，可以显著减少推断计算量，达到三倍的性能提升。

Oct, 2023

神经网络激活函数电路的设计空间探索

本研究探讨了利用组合电路高效实现非线性激活函数（如 SELU 和 tanh）的方法，在 MNIST、CIFAR-10 和 IMAGENET 基准测试中表现出很高的效率和精度，相比于 LUT / 存储器实现可以节省 3.13-7.69 和 4.45-8:45 的面积，能够分别在 5.14GHz 和 4.52GHz 的时钟频率下运行。

Sep, 2018

连续可微的指数线性单元

本文提出了一种 ELU 的可替代参数化方法，具有较原有参数化方法不具备的有用属性，易于操作和调整，是一种用于构建深度学习架构的有价值的整流器。

Apr, 2017