一种快速有监督学习的引导算法
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
Mar, 2017
提出了一种名为 AdaBelief 的优化器,通过根据当前梯度方向的 “信任度” 调整步长,同时达到了收敛速度快、泛化性能好和训练稳定的三个目标,并在图像分类和语言建模等领域的实验中证明了其优越性。
Oct, 2020
这篇研究探讨了深度神经网路的随机非凸优化方法中,通过在线选择 “分组数据量”(Batch)来加速学习的策略,提出了一种基于最新数据偏差排名的算法,并在 MNIST 数据集上实验证明,可以加速 AdaDelta 和 Adam 等方法的学习效率。
Nov, 2015
该论文提出了一种新的优化算法 Lookahead,针对目前普遍使用的 SGD 和 Adam 优化算法进行了改进,能够提高学习的稳定性和性能表现。
Jul, 2019
本文提出使用计算有效的外推方法来稳定优化轨迹,同时通过平滑避免锐减的局部最小值,从而解决了大批量训练数据下的模型精度退化问题并且在 ResNet、LSTM 和 Transformer 等模型下得到证明。
Jun, 2020
通过对教师 - 学生感知器分类模型的研究,我们在 B-η 平面上获得了一个相图,分为三个动力学相:(i) 由温度控制的噪声主导的 SGD,(ii) 由大步长主导的 SGD 和 (iii) GD,这些不同相还对应着不同的泛化误差区域。有趣的是,我们的分析揭示了将相 (i) 和相 (ii) 分隔开的批次大小 B * 与训练集大小 P 呈比例,其中的指数表征了分类问题的难度。
Sep, 2023
通过贝叶斯滤波的方法,我们提出了一种新的神经网络优化器 AdaBayes,能够自适应地在 SGD 和 Adam 之间切换,并且能够恢复出 AdamW 的效果,同时具有和 SGD 相当的泛化性能。
Jul, 2018
提出了一种简单且可扩展的主动学习方法,以在学生 - 教师方式下训练替代模型,以取代使用贝叶斯框架对基于深度神经网络(DNN)的替代模型进行复杂的训练过程,从而利用深度学习的优秀能力来减少计算复杂度,在实践中验证了该方法具有可行性并可用于多个工程设计领域。
Nov, 2022
本文研究了使用随机梯度下降(SGD)训练任意宽度的两层神经网络(NN),其中输入 x 是高斯分布的,目标 y 遵循多指数模型,并证明了当基于 SGD 和权重衰减进行训练时,NN 的第一层权重将收敛于真实模型的向量 u1,...,uk 所张成的 k 维主子空间,从而建立了一个独立于 NN 宽度的一般化误差边界,并进一步证明了,使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标,其样本复杂度与 d 成线性关系,而不是通过核区域中的任何 p 次多项式的已知 d 奥米(p)样本要求,这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。
Sep, 2022