论文讨论了神经网络的经验风险景观的平坦极小值的特性,提出了增加最大平坦度算法,可以得到更好的分类效果。
Jun, 2020
研究表明,随机梯度下降有一个偏好于平滑最小值的隐含偏差。 本文研究发现,在具有二次损失的线性神经网络训练中,线性 ResNets 的零初始化必然收敛于所有最小值中最平滑的最小值,这些最小值对应着接近平衡网络。另外,相邻层的权重矩阵在平坦的极小值解中相互耦合,形成了从输入到输出的明显路径,该路径只用于体验端到端最大增益的信号。
Feb, 2020
本研究观察到现代深度网络的局部最小值不仅是平坦或尖锐,而且存在许多不对称方向。我们形式化地将这样的最小值定义为不对称山谷,并证明在不对称山谷中,偏向平面的解决方案比确切的最小值更好地推广。此外,我们还发现,批量归一化(BN)似乎是不对称山谷产生的主要原因。
Feb, 2019
本论文在研究多层神经网络的优化问题,发现随机梯度下降算法会收敛到一个全局最优点,且这一点具有很好的泛化能力。结果表明,适当的尺度下,随机梯度下降动态可以通过某个非线性偏微分方程捕捉,从而证明了 SGD 的收敛性。
Apr, 2018
本文研究完全连接网络的优化问题,发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下,只要网络每层隐藏单元数大于训练点数,几乎所有的局部最小值都是全局最优解。
Apr, 2017
本文研究探讨深度学习的通用性,以及诸如损失函数的可行性等问题,并对深度网络中的对称性和参数空间等方面进行了分析。
Mar, 2017
本文研究了全连接前馈神经网络的非凸损失函数与球形自旋玻璃模型哈密顿量之间的联系,并通过随机矩阵理论的结果来解释网络的复杂性和局部极小值的位置分布,利用计算机模拟和数学模型对结果进行了验证和验证。
Nov, 2014
该论文研究了深度神经网络中过拟合的问题,证明了使用特定的损失函数时神经网络的收敛性及性能,提出了一种实用的判断不同零最小化点泛化性能的方法。
Jun, 2018
本文研究了二进制和连续的负边缘感知器作为学习随机规则和关联的简单非凸神经网络模型,并探讨了两种模型解决方案的几何学特征。结果发现,即使在高度非约束的情况下,存在大量的极宽、极平的最小值,这有助于提高学习器的泛化性能。
Apr, 2023
该研究探讨深度网络中的过拟合问题,发现梯度下降在非线性网络中的优化动力学与线性系统是等价的,同时也推广了梯度下降的两个性质到非线性网络中:隐式正则化以及最小范数解的渐近收敛,通过这些性质,可以提高模型的泛化能力,同时在分类任务中也能得到较好的分类误差。
Dec, 2017