Dec, 2023

二层 ReLU 网络中的隐藏最小值

TL;DR研究了拟合具有 $d$ 个输入、$k$ 个神经元和由目标网络生成的标签的两层 ReLU 网络的优化问题。通过研究隐藏极小值,发现了两类无穷族的最小值,每个 $d$ 和 $k$ 有一个最小值。第一类中的最小值的损失在 $d$ 增加时趋近于零,而第二类中的损失保持在零之外。为了避免属于第二类的最小值,我们发展了研究隐藏极小值的方法,对于损失函数应用的一般结果显示,从隐藏极小值出发的切线弧的结构和对称性有特征性的差异,这表明了分析的细微之处。理论结果表明,包括所有切线弧的集合在拓扑上足够平滑,允许切线弧的数值构建,并最终比较两类极小值相对于相邻临界点的位置。