本文提出了一个统一的神经网络标准化、正则化和优化框架,其中包括 Path-SGD 和 Batch-Normalization,并在两个不同的维度上插值于它们之间。通过这个框架,我们研究了优化的不变性、数据依赖性以及与自然梯度的联系。
Nov, 2015
研究了循环神经网络参数空间的几何形状,并开发了一种适应于该几何形状的路径-SGD优化方法,它可以学习具有ReLU激活的普通RNN。在一些需要捕捉长期依赖结构的数据集上,我们证明path-SGD可以显著提高ReLU RNN的可训练性,与使用SGD训练的RNN相比,即使使用各种最近推荐的初始化方案。
May, 2016
本文提出了新的核规范化方法,解释了该方法对CNN中核搜索空间的几何形状的影响,并证明了该方法几乎可以保证收敛于CNN分类损失的单一最小值,为图像分类基准测试提供了最先进的性能。
Oct, 2016
SGD使用隐式正则化训练深度神经网络的确切方式一直以来都很难界定,但我们证明了SGD最小化了一个与分布式权重后验分布相关的平均势能加一个熵正则化项,但这个势能通常与原始损失函数不同。此外,我们表明SGD在经典意义下甚至不会收敛,因此这种'失衡'的行为是由于对于深度网络,SGD的梯度噪声是高度非各向同性的。我们在附录中给出了这些声明的广泛经验验证。
Oct, 2017
使用较小的学习率和SGD最陡峭的方向进行训练可以提高模型的训练速度和泛化能力,而较大的学习率或较小的批量大小将导致SGD进入更宽的区域。
Jul, 2018
本研究证明了随机梯度下降法 (SGD)可训练深度神经网络,甚至可以收敛于全局最小值。这一结果得益于多个实验验证了SGD可以遵循恒星凸轨迹和训练损失近似于零值等性质,并以新方式揭示了SGD以确定性方式收敛于全局最小值。
Jan, 2019
本文通过对训练损失函数的海森矩阵及其相关量的分析,探讨了随机梯度下降(SGD)的优化动态和泛化行为等三个问题,并在合成数据、MNIST 和 CIFAR-10 数据集上进行了大量实验支持其理论结果。
Jul, 2019
通过 SGD 算法,在一定概率下可以从高秩极小值跳到低秩极小值,但跳回去的概率为零,在矩阵补全任务中,目标是收敛到最小秩的局部极小值。
May, 2023
稀疏性、深度神经网络、正则化路径、经验损失和帕累托前沿是研究论文的主要关键词和研究领域。
Aug, 2023
通过分析基于随机梯度下降(SGD)的隐式正则化效应,本文研究了SGD无替换的情况,并发现其与添加了一种新型正则化器时的最优化过程等价,导致其在损失函数空间中与注入噪声的GD和采样独立同分布的SGD有着明显不同的轨迹,并在某些视觉任务中鼓励损失函数海森矩阵的特征值谱中出现稀疏性。
Dec, 2023