Apr, 2024

一种基于结构引导的浅层 ReLU 神经网络的高斯牛顿方法

TL;DR本文提出了一种基于结构引导的 Gauss-Newton 方法,用于使用浅层 ReLU 神经网络求解最小二乘问题。该方法有效地利用了最小二乘结构和目标函数的神经网络结构,通过将网络的隐藏层和输出层的权重和偏置分别归类为非线性和线性参数,方法在非线性和线性参数之间来回迭代。该方法在最小二乘步骤中,为浅层 ReLU 神经网络推导出一种特殊形式的 Gauss-Newton 矩阵,用于高效迭代。实验证明,在合理的假设下,线性和非线性步骤中的对应的质量矩阵和 Gauss-Newton 矩阵均是对称且正定的。因此,SgGN 方法自然地产生了一个有效的搜索方向,无需像 Levenberg-Marquardt 方法中的移位技术一样实现 Gauss-Newton 矩阵的可逆性。该方法的收敛性和准确性在多个具有挑战性的函数逼近问题中进行了数值验证,特别是在机器学习中常用的训练算法在具有不连续性或尖锐过渡层的问题上面临重大挑战的情况下。