本文提出了一种新的方法,通过估计一个预条件器来加速随机梯度下降算法的收敛速度,适用于凸性和非凸性优化,具有稳定梯度降噪的效果,并且经过了大规模问题的有效预条件估计验证,可以在无需调整的情况下,高效解决深度神经网络等复杂问题
Dec, 2015
提出一种混合方法 SWATS 进行训练,开头使用自适应方法 Adam,后期如果符合一定条件则切换至 SGD。实验证明,SWATS 能够缩短自适应方法和 SGD 之间的泛化差距,在多数任务上表现良好。
Dec, 2017
通过贝叶斯滤波的方法,我们提出了一种新的神经网络优化器AdaBayes,能够自适应地在SGD和Adam之间切换,并且能够恢复出AdamW的效果,同时具有和SGD相当的泛化性能。
Jul, 2018
本文通过对训练损失函数的海森矩阵及其相关量的分析,探讨了随机梯度下降(SGD)的优化动态和泛化行为等三个问题,并在合成数据、MNIST 和 CIFAR-10 数据集上进行了大量实验支持其理论结果。
Jul, 2019
此研究探讨一些最优化方法(包括用于神经网络的一阶梯度下降和二阶自然梯度下降)的隐式偏差如何影响其泛化性能,并提出了管理偏差方差的几种方法及在回归问题中的应用。
Jun, 2020
Adam算法的预调节效果和其在减小病态问题方面的应用进行了详细的分析,为二次函数情况下量化了Adam算法能够对海森矩阵条件数的依赖程度,在一定条件下能优于梯度下降算法。
Feb, 2024
本文采用一种新方法,通过估计随机优化器的稳态分布,从多条优化轨迹的集合中综合评估,旨在解决当前对深度学习优化算法有效性的理解不完整的问题。通过合成函数和计算机视觉、自然语言处理等领域的实际问题的评估,我们着重在统计框架下进行公平的基准测试和建立统计显著性,揭示了训练损失与保持精确度之间的关系以及SGD、噪声使能变体和利用BH框架的新优化器的可比性能,值得注意的是,这些算法展示了与SAM等平坦最小值优化器相当的性能,但梯度评估减少了一半。我们期待我们的工作将促进深度学习优化的进一步探索,鼓励从单模型方法转向更加认识和利用优化器的随机性质的方法。
Mar, 2024
基于二阶算法和Hessian矩阵的优化器SGD-PH在深度神经网络训练中取得了良好的性能。
通过对预处理的随机梯度下降(SGD)和岭回归的综合比较研究,我们建立了预处理的SGD和岭回归的过度风险界限,并证明了存在一个简单的预处理矩阵能够优于标准的和预处理的岭回归,从而展示了预处理的SGD的增强正则化效果。
我们考虑使用梯度下降或其变种训练过度参数化的二层神经网络进行非参数回归,并证明了在神经网络使用经典梯度下降方法配合早停止训练时,当目标函数具有在深度学习文献中广泛研究的谱偏差时,训练后的网络提供了更尖锐的广义界限,具有最小化的最优速率。
Jul, 2024