在神经网络中围绕宽平坦最小值塑造学习模式

May, 2019

在神经网络中围绕宽平坦最小值塑造学习模式

Shaping the learning landscape in neural networks around wide flat minima

Carlo Baldassi, Fabrizio Pittorino, Riccardo Zecchina

TL;DR本文研究了具有随机权重的一层和两层神经网络在非凸损失函数情况下的学习行为，引入了宽平原（WFM）这一概念，并探索了 WFM 如何出现以及在学习中起到什么作用。

Abstract

Learning in deep neural networks (DNN) takes place by minimizing a non-convex high-dimensional loss function, typically by a stochastic gradient descent (SGD) strategy. The learning process is observed to be able

deep neural networks stochastic gradient descent non-convex loss function flat minima

发现论文，激发创造

熵梯度下降算法与宽平坦最小值

论文讨论了神经网络的经验风险景观的平坦极小值的特性，提出了增加最大平坦度算法，可以得到更好的分类效果。

Jun, 2020

深度网络平坦极小值的独特特性

研究表明，随机梯度下降有一个偏好于平滑最小值的隐含偏差。本文研究发现，在具有二次损失的线性神经网络训练中，线性 ResNets 的零初始化必然收敛于所有最小值中最平滑的最小值，这些最小值对应着接近平衡网络。另外，相邻层的权重矩阵在平坦的极小值解中相互耦合，形成了从输入到输出的明显路径，该路径只用于体验端到端最大增益的信号。

Feb, 2020

非对称山谷：突出和平坦局部极值之外

本研究观察到现代深度网络的局部最小值不仅是平坦或尖锐，而且存在许多不对称方向。我们形式化地将这样的最小值定义为不对称山谷，并证明在不对称山谷中，偏向平面的解决方案比确切的最小值更好地推广。此外，我们还发现，批量归一化（BN）似乎是不对称山谷产生的主要原因。

Feb, 2019

两层神经网络格势的均场视角

本论文在研究多层神经网络的优化问题，发现随机梯度下降算法会收敛到一个全局最优点，且这一点具有很好的泛化能力。结果表明，适当的尺度下，随机梯度下降动态可以通过某个非线性偏微分方程捕捉，从而证明了 SGD 的收敛性。

Apr, 2018

深且宽神经网络的损失曲面

本文研究完全连接网络的优化问题，发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下，只要网络每层隐藏单元数大于训练点数，几乎所有的局部最小值都是全局最优解。

Apr, 2017

深度网络可通过尖利极小化实现泛化

本文研究探讨深度学习的通用性，以及诸如损失函数的可行性等问题，并对深度网络中的对称性和参数空间等方面进行了分析。

Mar, 2017

多层网络的损失曲面

本文研究了全连接前馈神经网络的非凸损失函数与球形自旋玻璃模型哈密顿量之间的联系，并通过随机矩阵理论的结果来解释网络的复杂性和局部极小值的位置分布，利用计算机模拟和数学模型对结果进行了验证和验证。

Nov, 2014

深度网络中的泛化（IIIb 理论）

该论文研究了深度神经网络中过拟合的问题，证明了使用特定的损失函数时神经网络的收敛性及性能，提出了一种实用的判断不同零最小化点泛化性能的方法。

Jun, 2018

离散与连续权重的非凸神经网络中的典型和非典型解

本文研究了二进制和连续的负边缘感知器作为学习随机规则和关联的简单非凸神经网络模型，并探讨了两种模型解决方案的几何学特征。结果发现，即使在高度非约束的情况下，存在大量的极宽、极平的最小值，这有助于提高学习器的泛化性能。

Apr, 2023

深度学习理论 III：解释非过拟合谜题

该研究探讨深度网络中的过拟合问题，发现梯度下降在非线性网络中的优化动力学与线性系统是等价的，同时也推广了梯度下降的两个性质到非线性网络中：隐式正则化以及最小范数解的渐近收敛，通过这些性质，可以提高模型的泛化能力，同时在分类任务中也能得到较好的分类误差。

Dec, 2017