May, 2024

一种寻找更好激活函数的方法

TL;DR通过信息熵的角度,本研究理论上证明了存在具有边界条件的最差激活函数,提出了基于熵的激活函数优化方法(EAFO),并从 ReLU 中推导出了一种新的激活函数 CRReLU。实验证明 CRReLU 在深度神经网络中表现优异,并在大型语言模型细调任务中展现出与 GELU 相比的卓越性能,显示其广泛的实际应用潜力。