ICLRFeb, 2024

稀疏诱导激活的深度神经网络初始化

TL;DR通过剪枝层来诱导和利用稀疏激活是提高深度网络计算效率的一种有前途的方法,本论文使用大尺度高斯过程极限分析了随机初始化时诱导隐藏层稀疏性的非线性激活函数,证明了一种先前未报告的培训不稳定性,并表明通过剪枝激活函数的幅度,可以克服这种不稳定性,理论验证和数值实验表明,这种剪枝激活函数能够在训练和测试时保持接近完全准确度的同时达到高达 85%的稀疏度。