Feb, 2020

符号梯度下降的几何学

TL;DR本文介绍了基于符号的优化方法在分布式优化中有良好的通信成本和在神经网络训练中具有出色的性能。同时探讨了分离平滑性与∞- 平滑性之间的联系,指出后者是更弱和更自然的假设。研究表明,在深度网络中,如果 Hession 矩阵在对角线方向上集中,并且其最大特征值远大于平均特征值,则符号法比梯度下降更优。