Feb, 2021

保持梯度流动:使用梯度流动研究稀疏网络优化

TL;DR本文提出了一种在优化、正则化和架构设计等方面更好地拟合稀疏网络的方法,使用 Same Capacity Sparse vs Dense Comparison 和 Effective Gradient Flow 这两种指标,得出优化器、激活函数和正则化等参数对于稀疏网络的影响,同时对架构设计和训练方案进行探究,该研究表明,初始化只是稀疏网络优化中的一个方面。