Jun, 2021
随机梯度下降中的重尾以及过度参数化神经网络的可压缩性
Heavy Tails in SGD and Compressibility of Overparametrized Neural
Networks
TL;DR本研究揭示了训练算法的动态特性在实现神经网络压缩方案上起着关键作用,通过将压缩性与随机梯度下降的近期性质联系起来,本文证明了当神经网络遵循一定条件时,网络参数具有稀疏性,并且压缩误差可以任意减小,同时可证明良好的压缩性可降低泛化误差,该理论得到了各种神经网络的数值实验验证。