深度网络的能量景观
本论文提出一种名为 Entropy-SGD 的新型优化算法,利用能量景观的局部几何进行深度神经网络的训练,结果显示该算法相较于 SGD 具有更平滑的能量景观以及更好的泛化性能,是目前最先进的技术之一。
Nov, 2016
SGD 使用隐式正则化训练深度神经网络的确切方式一直以来都很难界定,但我们证明了 SGD 最小化了一个与分布式权重后验分布相关的平均势能加一个熵正则化项,但这个势能通常与原始损失函数不同。此外,我们表明 SGD 在经典意义下甚至不会收敛,因此这种 ' 失衡 ' 的行为是由于对于深度网络,SGD 的梯度噪声是高度非各向同性的。我们在附录中给出了这些声明的广泛经验验证。
Oct, 2017
随机梯度下降(SGD)算法是用于训练神经网络的算法。在这项工作中,我们证明了 SGD 的小批量噪声在有缩放对称性的损失函数中使解决方案朝着均衡解决方案正则化。我们应用这一结果来推导具有任意深度和宽度的对角线线性网络的随机梯度流的稳态分布,该稳态分布展示了相变、破坏性遍历和涨落反转等复杂的非线性现象,这些现象只存在于深度网络中,暗示着深度模型与浅模型之间的根本差异。
Aug, 2023
在对使用 ReLU 和相关激活函数的浅层人工神经网络进行研究中,我们发现随机梯度下降(SGD)方法(如纯独立 SGD、动量 SGD、AdaGrad、RMSprop 和 Adam 优化器)高概率无法收敛到全局最小值,并证实了 ANN 训练问题的优化空间中存在具有不同风险值的局部最小值的分层结构。
Feb, 2024
使用随机梯度下降(SGD)算法对神经网络进行培训,研究表明 SGD 在优化高维度非凸成本函数方面比梯度下降(GD)算法更为有效。
Sep, 2023
本文研究了全连接前馈神经网络的非凸损失函数与球形自旋玻璃模型哈密顿量之间的联系,并通过随机矩阵理论的结果来解释网络的复杂性和局部极小值的位置分布,利用计算机模拟和数学模型对结果进行了验证和验证。
Nov, 2014
本研究提出并验证了使用自适应预处理与 SGLD 相结合的方法,在深度神经网络的训练中可以解决参数空间的病态和过拟合问题,并且在逻辑回归,前馈神经网络和卷积神经网络等模型上,表现出了最先进的性能。
Dec, 2015
研究 SGD 训练的深度神经网络在性能收敛后的步长限制动态,揭示了优化超参数、梯度噪声结构及训练结束时 Hessian 矩阵之间错综复杂的相互作用,通过统计物理学的视角解释这种异常扩散现象并在 ImageNet 数据集的 ResNet-18 模型上得到了实证验证。
Jul, 2021
本文研究深度神经网络优化问题中的高维非凸性质,通过对数据分布和模型进行分析得出深度线性网络与半修正网络拓扑结构差异明显、非线性问题基于数据分布平滑程度和模型过度参数化的相互影响,通过证明半修正单层网络的渐进连通性,以及通过分析水平面的几何特征来研究梯度下降的调节。实验结果显示,虽然吸引子很小,但这些水平面在所有的学习阶段都保持连通。
Nov, 2016