May, 2023

理解 ReLU 网络的多阶段优化动态和丰富非线性行为

TL;DR本研究通过对 ReLU 神经网络的训练过程进行理论性分析,揭示了从随机初始化到最终收敛的整个优化过程,并发现了四个不同阶段,显示了一个从简单到复杂的总体趋势,此外还可以精确地识别和捕捉特定的非线性行为,如初始凝结、鞍点到高原动态、平台逃逸、激活模式的变化、学习随着复杂度的增加等现象。