本研究介绍了一种重量归一化方法,通过重新参数化神经网络中的权向量来改善优化问题的条件,并加速随机梯度下降的收敛速度,从而可以应用于各种模型和应用中,如LSTMs,神经网络生成模型和深度强化学习。
Feb, 2016
本文提出了一种投影基准重量归一化(PBWN)的方法,通过将每个神经元的输入权重限制在单位范数上,以达到优化DNN性能的目的。实验表明,该方法在许多不同的DNN体系结构上均能提高性能,并且能够在permutation invariant MNIST数据集上实现半监督学习方面的超越表现。
Oct, 2017
通过引入一种快速的迭代方法,可以最小化权重的L2范数,同时提高了测试准确率,从而为小批量数据提供了一种替代CIFAR-10和ImageNet的ResNet-18中的批量和分组规范化方法
Feb, 2019
本研究通过分析深度神经网络的梯度下降技术实现,提出了控制网络复杂度的隐含规范化方法,并将其归纳为梯度下降算法的内在偏差,说明这种方法可以解决深度学习中过拟合的问题。
Mar, 2019
本文研究了引入规范化层对神经网络的全局收敛速度和优化效果的影响,证明了在引入Weight Normalization后,具有ReLU激活函数的两层神经网络可以加速收敛。
Jun, 2020
本文介绍了正则化技术在深度学习中的重要性,以及在使用冲量梯度下降优化器时可能出现的问题和解决方法。作者提出了SGDP和AdamP两种解决方案,通过去除每次优化步骤中的径向分量或增加规范的方向,来维护深度神经网络的性能,并验证了这些方法对13个基准测试任务的实验结果。
该论文分析了在过参数化的线性学习问题中,平滑性和低泛化误差之间的关系,并研究了随机傅里叶级数模型,在该模型中,通过等距采样来估计未知傅里叶系数,研究了常规和加权最小二乘估计器的泛化误差,展示了加权三角形插值可以带来较小的过参数化泛化误差。
本研究介绍了一种通过引入定制化约束条件来减少神经网络权重梯度消失或爆发问题、提高分类边界的平滑性以及稳定深度神经网络,从而增强训练算法的稳健性和神经网络的泛化能力的方法。同时,还通过平衡重要性的 SG-MCMC 方法将这些约束条件有效地整合到一个随机梯度 Langevin 模型中,进一步探索损失函数的空间。值得注意的是,这些优化方式不需要适应神经网络体系结构设计选择或修改目标函数的正则化项,并且在分类任务中显示出较好的性能表现。
Jun, 2021
本文研究了使用梯度下降与权重归一化进行训练的经过参数化的模型所具有的内在偏向性,并证明了权重归一化的方法可以在对角线性模型中具有稀疏解的内在偏向性。
May, 2023
本研究解决了深度权重归一化模型在优化和泛化方面的理论空白。本文首次提供了权重归一化模型的优化和泛化的理论特性,特别是提出了光滑激活函数下的收敛性和一致性界限。实验结果表明,归一化项与深度神经网络的训练效果密切相关,具有重要的应用潜力。
Sep, 2024