贝叶斯过滤统一自适应和非自适应神经网络优化方法
提出了一个新的框架,基于自适应优化算法(如 AdaGrad 和 Adam)的新的概率解释,估计神经网络权重的后验分布,并通过实验证明了学习到的不确定性能够正确地与权重的预测能力相关,并且在多臂赌博机的 Thompson 抽样设置中与标准方法的表现相比,Badam 方法的推导不确定性估计的质量是足够好的。
Nov, 2018
用优化方法代替矩阵存储、求逆和乘法、蒙特卡罗估计等不适用于高维状态空间(如人工神经网络的权重空间)的传统方法,将标准的贝叶斯滤波问题转化为对具有时变目标的优化问题。我们发现,在线性 - 高斯模型下的卡尔曼滤波以及非线性模型的实验结果表明,我们的框架能够得到有效、稳健且可扩展到高维系统的滤波器,与标准贝叶斯滤波解决方案相比具有优势,并且我们认为,更容易调整优化器而不是确定正确的滤波方程,使我们的框架成为处理高维滤波问题的有吸引力的选择。
Nov, 2023
提出一种实用的 PAC-Bayes 训练框架,通过使用无需多重超参数调整的算法,结合 Stochastic Gradient Descent(SGD)或 Adam 优化算法和正则化技术等方法,实现了与常规方法相当的测试性能,同时实现了深度神经网络的鲁棒性和可解释性。
May, 2023
提出了一种名为 AdaBelief 的优化器,通过根据当前梯度方向的 “信任度” 调整步长,同时达到了收敛速度快、泛化性能好和训练稳定的三个目标,并在图像分类和语言建模等领域的实验中证明了其优越性。
Oct, 2020
本文提出了一种变种 Adam 算法 - 基于方向保持且具有归一化的 Adam 算法 (ND-Adam),通过更精确的权重向量更新来消除 Adam 和 SGD 之间的推广差距,并进一步改善了分类任务中的推广性能。
Sep, 2017
研究表明采用指数移动平均策略的自适应算法如 Adam 和 RMSProp 可以最大化神经网络的边界,而直接在条件器中加历史平方梯度的 AdaGrad 却不行。
Dec, 2020
本文提出了通过修改网络结构,使其缩放不变,并使用 SGD 和权重衰减进行训练的通用方法,并证明了此方法不仅可以实现稳健的训练,还可以节省内存。作者还设计了一种名为 SIBERT 的缩放不变的 BERT 版本,其性能可与使用 Adam 等自适应方法训练的 BERT 相媲美。
Feb, 2022
本论文研究了层次贝叶斯网络和具有随机隐藏单元的神经网络,表明通过在潜在变量的中心化和可微非中心化参数化之间切换,这两种类型的模型可以相互转换,并且给出了各种参数化的优缺点及推断方法。在非中心形式中,可以使用简单的蒙特卡洛估计器来学习参数。理论结果得到了实验证实。
Feb, 2014
探索一种不依赖于曲线追踪法而是靠新的技术 “分解” 隐藏层和通过引导、重新采样和线性回归来更新它们的加权连接的神经网络训练方式,实验证明这种方法的收敛速度非常快且需要较少数据点。
May, 2023
本研究利用自然梯度变分推理方法对深度神经网络进行实用性的训练,并通过批归一化、数据扩充和分布式训练等技术获得类似于 Adam 优化器的性能,即使在 ImageNet 等大型数据集上也是如此。此外,本研究验证了使用贝叶斯原理的好处:预测概率被很好地校准,超出分布数据的不确定性得到改善,并且持续学习性能得到提高。该研究旨在实现实用性的深度学习,并同时保留贝叶斯原理的好处。最后提供了一个 PyTorch 的实现优化器。
Jun, 2019