May, 2021

超参数神经网络中的损失景观几何:对称性和不变性

TL;DR本文通过组合分析的方式,对超参数化神经网络中对称引起的关键点进行了探讨,发现这些关键点生成的正则流形在 mildly overparameterized regime 时占优,但是当 vastly overparameterized regime 时,亚线性关键点数量的组合爆炸会占据优势。最终得出一个数学公式来计算关键点数量。