神经网络超参数的纪律性方法：第 1 部分 —— 学习速率、批量大小、动量和权重衰减

Mar, 2018

神经网络超参数的纪律性方法：第 1 部分 —— 学习速率、批量大小、动量和权重衰减

A disciplined approach to neural network hyper-parameters: Part 1 -- learning rate, batch size, momentum, and weight decay

PDF

Leslie N. Smith

TL;DR本文介绍了几种有效的设置超参数的方法，以显著减少训练时间并提高性能。具体来说，报告展示了如何检查训练验证 / 测试损失函数以获取欠拟合和过拟合的微妙线索，并提供了朝向最佳平衡点的指南。同时还讨论了如何增加 / 减少学习率 / 动量以加速训练，并解释了如何在每个数据集和架构的所有正则化之间保持平衡的重要性。本文的实验表明，使用权重衰减作为示例正则化器，其优化值与学习率和动量密切相关。

Abstract

Although deep learning has produced dazzling successes for applications of image, speech, and video processing in the past few years, most trainings are with suboptimal hyper-parameters, requiring unnecessarily long training times. Setting the hyper-parameters remains a black art that

deep learning hyper-parameter optimization regularization underfitting overfitting

发现论文，激发创造

重新审视微调的超参数

该研究从实验评估中重新审视了微调的超参数几个通用实践，发现动态学习参数不是一个很好探索的参数；发现微调的最佳超参数不仅与数据集相关，还与源域和目标域的相似性敏感；发现参考基于的规则化方法可能不适用于 “不相似” 的数据集。这些结论挑战了微调的常见实践，并鼓励深度学习从业者重新思考微调的超参数。

Feb, 2020

不要减小学习率，增加批量大小

通过增加批量大小来训练深度神经网络中，测试集和训练集的学习曲线可以达到相同结果，可以获得更高的并行性和更少的参数更新，同时无需超参数调整。

Nov, 2017

温度平衡、逐层权重分析与神经网络训练

该论文提出了 TempBalance，一种简单而有效的逐层学习率方法，基于 Heavy-Tailed Self-Regularization (HT-SR) 理论，并展示了使用 HT-SR 相关指标来指导模型训练中的温度调度和平衡，从而改善在测试中的性能。实验证明 TempBalance 显著优于普通的 SGD 和经过精心调节的谱范数正则化，同时也超过了一些最先进的优化器和学习率调度器。

Dec, 2023

L2 正则化与批量归一化和权重归一化比较

研究 Batch Normalization 和 L2 正则化在深度神经网络训练中的影响，发现 L2 正则化在与标准化结合使用时并没有规范化的作用，而是会影响权重的缩放和有效学习速率，还讨论了其他缓解这个问题的方法。

Jun, 2017

超参数对神经网络 SGD 训练的影响

大规模实验探索神经网络分类器的超参数及其交互作用。

Aug, 2015

深度学习指数学习率调度

通过对 BN 的权重衰减及动量模型的应用，本文发现深度学习算法能够成功应用于具有指数增长学习速率的训练方式，证明了这种训练方式在各种标准结构中具有优秀的表现，并给出了数学解释和实例验证。

Oct, 2019

现代深度学习中为什么我们需要权重衰减？

从 ResNets 到 LLMs 的统一视角，权重衰减不是一个显式正则化器，而是以期望的方式改变训练动态。

Oct, 2023

神经网络的等效标准化

通过引入一种快速的迭代方法，可以最小化权重的 L2 范数，同时提高了测试准确率，从而为小批量数据提供了一种替代 CIFAR-10 和 ImageNet 的 ResNet-18 中的批量和分组规范化方法

Feb, 2019

权重衰减正则化的三种机制

三个 optimization algorithms (SGD、Adam 和 K-FAC) 使用 weight decay 有三种 regularization 效应：(1) 增加 effective learning rate；(2) regularizing input-output Jacobian norm；(3) 减小 second-order optimization 的 effective damping coefficient。

Oct, 2018

神经网络超参数优化的有效算法

本文中提出了一种基于箱限制数学优化问题的方法，运用光滑径向基函数模型及无导数优化工具去寻找神经网络的最佳参数。该方法是自动的且可有效地搜索参数空间，其应用于药物相互作用的预测中具有良好的效果，并且所用的优化工具是开源的。

May, 2017