- 如何随着模型和数据集的规模调整 AdamW 的权重衰减
AdamW 算法中的权重可以理解为近期更新的指数移动平均 (EMA),通过 EMA 时间尺度选择合适的权重衰减,以确保权重衰减与模型和数据集的规模相匹配,并得出 EMA 时间尺度的合理取值范围。
- 神经网络和 LLMs 中的优化轨迹的标志:长度、曲线和死胡同
我们通过分析神经网络中优化轨迹中包含的参数丰富结构,提出了一种全新的理解机制的方法。我们引入一些关于优化轨迹复杂性的自然概念,同时定性和定量地揭示了动量、权重衰减和批处理大小等各种优化选择之间的内在细微差别和相互作用。对于深度神经网络中优化 - 无验证的调参:在训练集上搜索学习率和权重衰减
通过 Tune without Validation(Twin)管道,我们介绍了一种可以在没有验证集的情况下调整学习率和权重衰减的方法。我们利用最近关于假设空间中学习阶段的理论框架来设计一种启发式算法,该算法可以预测哪些超参数组合能够获得更 - 解析神经网络可塑性丧失的原因
在神经网络的设计、初始化和优化的过程中,损失可塑性问题是一个关键因素。通过组合使用层归一化和权重衰减技术,可以在各种非平稳学习任务中有效地维持网络的可塑性,从而实现高度稳健的学习算法。
- ReLU 神经网络的凸松弛在多项式时间内近似全局最优
本文研究了采用权重衰减正则化的两层 ReLU 网络与其凸松弛之间的最优性差距,揭示了在随机训练数据情况下原问题与其松弛之间相对最优性差距可以通过 O (√log n) 的因子进行界定,且应用简单的算法可在多项式时间内解决原非凸问题,此外,在 - 参数正则化中的新视角:约束方法
本研究提出了一种受限参数正则化(CPR)方法,与传统的权重衰减相比较,CPR 通过对单个参数组的统计度量(例如 L$_2$ 范数)施加上限,从而在学习过程中避免了显式的标量系数。通过应用增广 Lagrangian 方法解决这个约束优化问题, - 深度学习中的分离权重衰减的 Adam 系列方法
本研究探讨了一类广泛的 Adam 系列方法在最小化二次正则化非光滑非凸优化问题中的收敛性质,特别是在训练带有权重衰减的非光滑神经网络的情况下。通过引入修正权重衰减的 AdamW 方法,我们提出了一种新颖的具有分离权重衰减的 Adam 系列方 - 现代深度学习中为什么我们需要权重衰减?
从 ResNets 到 LLMs 的统一视角,权重衰减不是一个显式正则化器,而是以期望的方式改变训练动态。
- FedNAR:带有归一化退火正则化的联邦优化
通过引入归一化退火正则化,将权重衰减和梯度裁剪相结合,提高联邦学习算法的收敛性和模型准确性。
- 探索神经衰竭:批标准化和权重衰减的影响
神经崩溃是最后一层神经网络分类器中出现的几何结构,本文研究了批归一化和权重衰减对神经崩溃的影响,并提出了几何直观的类内和类间余弦相似度度量来捕捉神经崩溃的核心方面。结果表明,批归一化和权重衰减可能是神经崩溃出现的基本因素。
- 正则化对损失函数的几何影响
神经网络学习的关键取决于损失函数的几何形态,我们通过研究不同的正则化方法对函数的几何形态的影响,发现在非线性深度神经网络中,正则化前的损失函数通常不是莫尔斯函数;我们考虑了几种不同的正则化方法,包括权重衰减,研究发现哪些正则化方法可以使得正 - 使用过度参数化的卷积残差网络在低维流形上进行非参数分类
该论文研究了使用权重衰减训练的 ConvResNeXts 模型的性能, 分析表明权重衰减隐式地强制对这些模块进行稀疏化处理,从而说明过参数化的 ConvResNeXts 相对于传统机器学习模型的优势。
- 数据重构解构:多类别、权重衰减和一般性损失
本研究延伸了 Haim 等人的研究结果,提出了一种更加通用的重构方案,发现使用权重衰减可以提高训练样本的可重构性,并研究了神经网络结构、损失函数等因素对其可重构性的影响。
- DNN 的向量值变分空间和宽度界限:对权重衰减正则化的见解
本文对使用深度神经网络以及权值衰减函数进行训练的常见方法进行了新的解释,同时对基于多输出 ReLU 神经网络的使用权值衰减函数进行训练的函数的学习、利用新的表示定理在 VV 空间内使神经网络成为解决学习问题的最佳方案、以及使用多任务套索问题 - CVPR通过权重平衡进行长尾识别
本文提出了一种通过权重均衡技术来解决长尾识别问题的方法,其中使用了 L2 正则化、权重衰减和 MaxNorm 约束等技术,通过两阶段训练,该方法在五种标准基准测试中取得了最先进的准确性,成为长尾识别未来的基线。
- 神经网络的通用循环训练
本研究介绍了以简单的训练开始和结束,在中间轮次进行困难训练的 “通用循环训练” 的原则,并提出了几种训练神经网络的表现形式,包括基于算法、基于数据和基于模型的例子。此外,还介绍了多种新技术和建议更改典型的训练方法,总结出通用循环训练的概念, - ICMLAdam 与训练策略如何帮助 BNNs 优化?
研究二进制神经网络使用 Adam 优化相对于 SGD 优化的优势,发现 Adam 通过其自适应学习率策略更好地处理 BNN 的崎岖损失表面,并得到更好的优化结果。通过分析发现,Adam 的二阶动量正则化效应对于使 BNN 中由于激活饱和而死 - 理解和调度权值衰减
本文从学习动态的角度提出了 weight decay 的一种新的理论解释,针对大批量训练,提出了线性缩放 weight decay 的规则,并且提出了一个稳定的 weight decay 调度方法(SWD),在各种实验中,SWD 方法往往比 - ICML通过权重尺度不变正则化提高神经网络的泛化性能和鲁棒性
该研究论文介绍了一种改进神经网络正则化器的方法,该正则化器不仅能对权重衰减,还能考虑权重尺度偏移对正则化的影响,有效地限制神经网络的内在范数,并优化了对抗强度以提高泛化性能。
- 深度学习指数学习率调度
通过对 BN 的权重衰减及动量模型的应用,本文发现深度学习算法能够成功应用于具有指数增长学习速率的训练方式,证明了这种训练方式在各种标准结构中具有优秀的表现,并给出了数学解释和实例验证。