超参数对神经网络 SGD 训练的影响

Aug, 2015

超参数对神经网络 SGD 训练的影响

The Effects of Hyperparameters on SGD Training of Neural Networks

Thomas M. Breuel

TL;DR大规模实验探索神经网络分类器的超参数及其交互作用。

Abstract

The performance of neural network classifiers is determined by a number of hyperparameters, including learning rate, batch size, and depth

neural network classifiers hyperparameters optimization experiments

发现论文，激发创造

深度神经网络优化轨迹上的盈亏平衡点

本文探讨了随机梯度下降在神经网络早期训练阶段中的超参数，指出通过在初期采用大学习率可以减小梯度的方差和提高梯度的协方差矩阵的条件数，在超过 “盈亏平衡点” 之后，通过随机梯度下降法优化可以隐式地正则化损失曲面的曲率以及梯度中的噪声等问题，这对于神经网络的优化效果具有积极作用，研究这些影响对于泛化性能的影响是一个有前途的研究方向。

Feb, 2020

SGD 超参数在自然训练中如何影响对抗鲁棒性？

通过实验观察 SGD 算法中学习率、batch size 和 momentum 三个重要超参数对神经网络训练精度及对抗鲁棒性的影响，并发现固定学习率和 batch size 比例的训练方式可以获得更好的泛化能力与保持较为稳定的抗干扰性能。

Jun, 2020

神经网络上的随机梯度下降学习越来越复杂的函数

实验研究表明，Stochastic Gradient Descent 利用条件互信息学习了从线性分类器到逐渐复杂的函数的分类器，解释了超参数化区域中 SGD 学习的分类器为什么往往具有良好的泛化能力。

May, 2019

网络宽度对随机梯度下降和泛化效果的影响：实证研究

通过超参寻优与一系列不同的神经网络模型，我们探究了过度参数化情况下随机梯度下降最终调整到的参数状态，并发现优化算法的最优超参数取决于一项被规范化的噪声参数，其与网络宽度等因素有关，这对各种类型的神经网络均成立，对于 ResNets 这样的网络同样存在相似的趋势。

May, 2019

神经网络超参数的纪律性方法：第 1 部分 —— 学习速率、批量大小、动量和权重衰减

本文介绍了几种有效的设置超参数的方法，以显著减少训练时间并提高性能。具体来说，报告展示了如何检查训练验证 / 测试损失函数以获取欠拟合和过拟合的微妙线索，并提供了朝向最佳平衡点的指南。同时还讨论了如何增加 / 减少学习率 / 动量以加速训练，并解释了如何在每个数据集和架构的所有正则化之间保持平衡的重要性。本文的实验表明，使用权重衰减作为示例正则化器，其优化值与学习率和动量密切相关。

Mar, 2018

存在糟糕的全局最小值，并且 SGD 可以到达它们

通过研究深度神经网络的显式正则化对随机梯度下降的作用，证实显式正则化对于高参数化的神经网络成功的贡献远比随机梯度下降方法更为重要。

Jun, 2019

神经网络过度参数化对梯度混乱和随机梯度下降的影响

本文研究神经网络架构如何影响训练速度，引入 “梯度混乱” 概念来分析。实验结果表明，增加神经网络宽度可以降低梯度混乱从而提高模型训练效率，而增加深度则会使训练效率降低。

Apr, 2019

利用连续时间控制和摄动理论解锁最佳批处理大小日程

我们推导了随机梯度下降和类似算法的最优批次大小计划，通过近似离散参数更新过程为一族随机微分方程，进而使用学习率展开进行优化处理。我们应用这些结果于线性回归任务中。

Dec, 2023

基于梯度的深度架构训练实践建议

本文是一份深度学习相关的实用指南，包含了一些常用的超参数建议，特别是关于基于反向传播梯度和基于梯度优化的学习算法方面。讨论了如何处理允许调整多个超参数时可以获得更有趣结果的事实，并总结描述了成功高效地训练和调试大规模深度神经网络的实践方法，最后探讨了更深层次结构的训练困难的开放性问题。

Jun, 2012

通过结构化数据上的随机梯度下降学习超参数神经网络

本文研究了使用随机梯度下降法从随机初始化开始学习两层超参数化 ReLU 神经网络以进行多类分类问题，证明了当数据来自于分离度高的混合分布时，SGD 学习到的网络具有较小的泛化误差，分析了学习神经网络的几个方面并在合成数据和 MNIST 数据集上进行了实证验证。

Aug, 2018