Feb, 2021
保持梯度流动:使用梯度流动研究稀疏网络优化
Keep the Gradients Flowing: Using Gradient Flow to Study Sparse Network Optimization
Kale-ab Tessera, Sara Hooker, Benjamin Rosman
TL;DR本文提出了一种在优化、正则化和架构设计等方面更好地拟合稀疏网络的方法,使用 Same Capacity Sparse vs Dense Comparison 和 Effective Gradient Flow 这两种指标,得出优化器、激活函数和正则化等参数对于稀疏网络的影响,同时对架构设计和训练方案进行探究,该研究表明,初始化只是稀疏网络优化中的一个方面。