一种快速有监督学习的引导算法

May, 2023

A Bootstrap Algorithm for Fast Supervised Learning

Michael A Kouritzin, Stephen Styles, Beatrice-Helen Vritsiou

TL;DR探索一种不依赖于曲线追踪法而是靠新的技术 “分解” 隐藏层和通过引导、重新采样和线性回归来更新它们的加权连接的神经网络训练方式，实验证明这种方法的收敛速度非常快且需要较少数据点。

Abstract

Training a neural network (NN) typically relies on some type of curve-following method, such as gradient descent (GD) (and stochastic gradient descent (SGD)), ADADELTA, ADAM or limited memory algorithms.

neural network gradient descent convergence resampling linear regression

发现论文，激发创造

深度学习的鲁棒自适应随机梯度方法

本文提出了一种自适应学习率算法，该算法利用了损失函数的随机曲率信息自动调整学习率，并且提出了一种新的方差缩减技术以加速收敛，在深度神经网络实验中，相比于流行的随机梯度算法获得了更好的性能。

Mar, 2017

AdaBelief 优化器：通过观察梯度的信念来调整步长

提出了一种名为 AdaBelief 的优化器，通过根据当前梯度方向的 “信任度” 调整步长，同时达到了收敛速度快、泛化性能好和训练稳定的三个目标，并在图像分类和语言建模等领域的实验中证明了其优越性。

Oct, 2020

神经网络快速训练的在线批量选择

这篇研究探讨了深度神经网路的随机非凸优化方法中，通过在线选择 “分组数据量”（Batch）来加速学习的策略，提出了一种基于最新数据偏差排名的算法，并在 MNIST 数据集上实验证明，可以加速 AdaDelta 和 Adam 等方法的学习效率。

Nov, 2015

预见优化器：向前 k 步，向后 1 步

该论文提出了一种新的优化算法 Lookahead，针对目前普遍使用的 SGD 和 Adam 优化算法进行了改进，能够提高学习的稳定性和性能表现。

Jul, 2019

深度学习大批量训练中的外推

本文提出使用计算有效的外推方法来稳定优化轨迹，同时通过平滑避免锐减的局部最小值，从而解决了大批量训练数据下的模型精度退化问题并且在 ResNet、LSTM 和 Transformer 等模型下得到证明。

Jun, 2020

随机梯度下降的不同制度

通过对教师 - 学生感知器分类模型的研究，我们在 B-η 平面上获得了一个相图，分为三个动力学相：(i) 由温度控制的噪声主导的 SGD，(ii) 由大步长主导的 SGD 和 (iii) GD，这些不同相还对应着不同的泛化误差区域。有趣的是，我们的分析揭示了将相 (i) 和相 (ii) 分隔开的批次大小 B * 与训练集大小 P 呈比例，其中的指数表征了分类问题的难度。

Sep, 2023

贝叶斯过滤统一自适应和非自适应神经网络优化方法

通过贝叶斯滤波的方法，我们提出了一种新的神经网络优化器 AdaBayes，能够自适应地在 SGD 和 Adam 之间切换，并且能够恢复出 AdamW 的效果，同时具有和 SGD 相当的泛化性能。

Jul, 2018

面向工程设计的数据高效代理建模：基于批量模式的深度主动学习回归，无需集成

提出了一种简单且可扩展的主动学习方法，以在学生 - 教师方式下训练替代模型，以取代使用贝叶斯框架对基于深度神经网络（DNN）的替代模型进行复杂的训练过程，从而利用深度学习的优秀能力来减少计算复杂度，在实践中验证了该方法具有可行性并可用于多个工程设计领域。

Nov, 2022

基于统计模型的主动学习

本文回顾了如何使用最优数据选择技术来优化一些类型的机器学习算法，包括前馈神经网络、高斯混合模型和局部加权回归，并探讨了此方法如何降低训练数据量，提高模型性能。

Mar, 1996

神经网络使用 SGD 高效地学习低维表示

本文研究了使用随机梯度下降（SGD）训练任意宽度的两层神经网络（NN），其中输入 x 是高斯分布的，目标 y 遵循多指数模型，并证明了当基于 SGD 和权重衰减进行训练时，NN 的第一层权重将收敛于真实模型的向量 u1，...，uk 所张成的 k 维主子空间，从而建立了一个独立于 NN 宽度的一般化误差边界，并进一步证明了，使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标，其样本复杂度与 d 成线性关系，而不是通过核区域中的任何 p 次多项式的已知 d 奥米（p）样本要求，这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。

Sep, 2022