神经网络中的数据依赖路径归一化
本文重新审视了使用 SGD 来训练深度神经网络的选择,通过重新考虑优化权重时所适当的几何方式,提出了一种几何不变,不受权重重放缩影响的 Path-SGD 方法,并结合与最大范数正则化相关的基于路径的正则化器,使用这种近似的最陡梯度下降方法,以改进 SGD 和 AdaGrad 的效果。
Jun, 2015
研究了循环神经网络参数空间的几何形状,并开发了一种适应于该几何形状的路径 - SGD 优化方法,它可以学习具有 ReLU 激活的普通 RNN。在一些需要捕捉长期依赖结构的数据集上,我们证明 path-SGD 可以显著提高 ReLU RNN 的可训练性,与使用 SGD 训练的 RNN 相比,即使使用各种最近推荐的初始化方案。
May, 2016
使用神经切向核的理论近似,通过引入路径核将几种网络剪枝方法统一到单一的路径中心框架下,并分析了其对网络训练动态的影响及其相互关系,进而提出了两种初始化剪枝算法的改进方法。
Jan, 2021
通过使用支持一般 DAG ReLU 网络的路径范数工具包,该研究建立了适用于现代神经网络的泛化界限,该工具包不仅可以恢复或超越已知的界限,而且还具有计算简便、对网络对称性不变以及相对于算符范数的优化尖锐度等路径范数的优点。该工具包的多功能性和易于实施性使我们能够在 ImageNet 上对 ResNets 的最尖锐的已知界限进行数值评估,从而挑战基于路径范数的泛化界限的具体承诺。
Oct, 2023
通过量化 Fisher 信息矩阵确定的参数空间的几何,我们揭示了在深度神经网络中,批标准化作为最后一层标准化方法,对减少 Fisher 信息矩阵导致的病态锐度具有明显的贡献。
Jun, 2019
本研究提出了利用深度神经网络的多源域泛化技术,通过引入特定于各个领域的优化归一化层。在每个域中,根据多个归一化统计的加权平均值对激活值进行归一化处理。并且在实现中使用批和实例归一化,以确定这两种归一化方法的最佳组合,优化学习模型的通用性。本方法在标准域泛化基准测试中展示了当前最高的准确率,同时适用于诸如多源领域适应和带有标签噪声的域泛化等进一步的任务。
Jul, 2019
通过引入一种快速的迭代方法,可以最小化权重的 L2 范数,同时提高了测试准确率,从而为小批量数据提供了一种替代 CIFAR-10 和 ImageNet 的 ResNet-18 中的批量和分组规范化方法
Feb, 2019
本篇论文详细研究了批量归一化在训练神经网络中的作用,以及其与其他优化方法的比较,主要目的是通过改进训练过程判断是否有可能在不使用批量归一化情况下有效地训练网络。
Aug, 2020
通过数学分析和实验证明,在深度网络中引入标准化层(例如批量标准化,层标准化)有利于优化并促进泛化,同时对于包含标准化的一类神经网络,伴随权值衰减的标准化可以鼓励梯度下降到达稳定边缘,并且对于这种情况,可以确定梯度下降的流动轨迹。
Jun, 2022
利用矩阵流形的几何性质,我们提出了一种自动优化方法,对神经网络的归一化参数进行优化。通过层次化的权重归一化以限制利普希茨常数并增强梯度的可靠性,使训练后的网络适用于控制应用。通过初始化网络和根据初始化网络的 2-2 增益对数据进行归一化,我们的方法首先对网络进行初始化。然后,所提出的算法基于高维球面上的指数映射来进行更新。给定一个更新方向(如负内腔梯度),我们提出了两种不同的方式来确定下降的步长。第一种算法利用目标函数沿着组合球面流形上定义的更新曲线进行的自动微分。利用方向二阶导数信息,无需显式构造海森矩阵。第二种算法利用架构感知的主导次数极小化框架进行神经网络的优化。通过这些新进展,所提出的方法避免了手动调优和学习率的调度,从而为优化归一化神经网络提供了自动化的流程。
Dec, 2023