ICLRNov, 2016

半整流网络优化的拓扑和几何

TL;DR本文研究深度神经网络优化问题中的高维非凸性质,通过对数据分布和模型进行分析得出深度线性网络与半修正网络拓扑结构差异明显、非线性问题基于数据分布平滑程度和模型过度参数化的相互影响,通过证明半修正单层网络的渐进连通性,以及通过分析水平面的几何特征来研究梯度下降的调节。实验结果显示,虽然吸引子很小,但这些水平面在所有的学习阶段都保持连通。