Feb, 2024

在量化嘈杂环境中利用连续可微激活函数进行学习

TL;DR通过不可微的激活函数如 GELU 和 SiLU,我们能够在存在量化噪声的情况下,实现对卷积、线性和 Transformer 网络的分析和训练,从而提供实现高性能和可靠硬件的适当激活函数选择。