Feb, 2025

可学习的多项式、三角和热带激活函数

TL;DR本研究解决了静态激活函数在深度神经网络中导致的梯度消失或爆炸问题,提出了一种新的初始化方案,以保证变换器和卷积网络中的单位方差,从而实现稳定的梯度流。通过大量实验,证明了基于Hermite、Fourier和热带多项式的可学习激活函数在大规模任务中的有效性,显著提升了网络在准确性和困惑度方面的表现。