Mar, 2017

两层ReLU网络人口梯度分析公式及其在收敛和临界点分析中的应用

TL;DR研究2层ReLU网络的理论性质,使用梯度下降训练以模仿具有相同结构和固定参数的教师网络的输出,证明其具有解析梯度公式,进而证明了关键点和收敛行为,重点是对于大量Relu节点的网络,如果权重的标准差上界为$ O(\epsilon/\sqrt{d}) $,则初始随机化权重的微小扰动将导致对$w^*$(或其置换)的收敛,这种现象在物理学中称为自发对称破缺(SSB)。