- Adam-mini: 更少的学习率,取得更多的收益
Adam-mini 是一个优化器,通过减少内存占用量(相较于 AdamW 减少了 45%至 50%)来实现与之相当或更好的性能。Adam-mini 通过减少 Adam 中的学习率数量来降低内存使用,使用预定义参数块中 $v$ 的平均值作为该 - 基于 LLM 的优化器中方向反馈的重要性
使用大型语言模型作为交互式优化器,通过自然语言和数值反馈在文本空间中解决最大化问题的潜力进行研究。为了实现可靠的改进,我们设计了一种新的基于大型语言模型的优化器,它从历史优化跟踪中综合定向反馈。经验证明,与现有技术相比,我们的基于大型语言模 - SOMTP:基于自监督学习的机器人基于 MPC 的安全轨迹规划问题的优化器
基于自主学习优化器的控制屏障函数模型预测控制轨迹规划算法,通过问题转录和可微的解空间修正,以及引入增广拉格朗日方法的训练算法,实现了更好的可行性和更快速的求解速度。
- 使用部分海森矩阵的 SGD 优化深度神经网络
基于二阶算法和 Hessian 矩阵的优化器 SGD-PH 在深度神经网络训练中取得了良好的性能。
- 基于动态记忆的自适应优化
优化器记忆机制的研究表明通过引入更多记忆单元以及使其更具自适应性,可提高已知优化器的性能。
- 多任务学习中常见假设的挑战
多任务学习中的优化器选择、梯度冲突、迁移性以及与单任务学习的相似性的研究
- 信号处理 meets SGD:从动量到滤波
本文介绍了一种基于降低历史梯度方差的新型优化方法,通过引入自适应权重来增强 SGD 的一阶时刻估计,在深度学习模型训练过程中动态改变权重以适应梯度方差的变化,实验结果表明该方法能够达到与现有优化方法相媲美的性能。
- AdaLomo:自适应学习率的低内存优化
大型语言模型通常需要较大的内存来训练,但低内存优化(LOMO)技术通过引入自适应学习率以及矩阵分解等方法,降低了内存需求并与 AdamW 优化器在大语言模型上表现相当。
- 狮子暗中解决约束优化:正如李亚普诺夫所预测的
Lion 是一种优化器模型,通过程序搜索发现,它在训练大型 AI 模型上展示了有希望的结果,在内存效率上与 AdamW 相当或更好。通过连续时间和离散时间分析,我们证明了 Lion 在最小化一般损失函数并强制执行边界约束时是理论上新颖和有原 - AdaPlus: 将 Nesterov 动量和精确的步长调整与 AdamW 基础相结合
该研究提出了一种称为 AdaPlus 的高效优化器,它在 AdamW 基础上集成了 Nesterov 动量和精确的步长调整,结合了 AdamW、Nadam 和 AdaBelief 的优点,并且不引入任何额外的超参数。经过广泛的实验证明了 A - 景观替代品:在部分信息下学习数学优化的决策损失
通过使用可学习的景观代理(Landscape Surrogate)作为优化器的替代品,可以在学习集成优化中加速优化过程,提供相对稠密和平滑的梯度,在合成问题和真实世界问题中实现优化目标,同时降低对优化器的调用次数,并在计算复杂度高的高维问题 - Quarl: 基于学习的量子电路优化器
Quarl 是一种基于学习的量子电路优化器,通过将行动空间分解为两部分并利用图神经网络在状态表示中进行引导,解决了量子电路优化中的行动空间和状态表示的挑战,它在几乎所有基准电路上都明显优于现有的电路优化器,能够学习执行复杂的非局部电路优化。
- 一种新型双指数移动平均双向查找的 自适应和非自适应动量优化器
本研究提出了一种结合逆向和正向视角的新型 Admeta 优化器框架,该框架基于两种经典优化器 SGD 和 Adam,通过一种动态前瞻策略与指标替换算法,提高了神经网络的参数优化能力.
- 基于残差的注意力和信息瓶颈理论在 PINNs 中的连接
本文提出一种有效的、无需梯度加权的物理知识神经网络(PINNs)加速收敛的机制,并通过研究权重的演化来解释它与信息瓶颈理论的关系,我们的方法在典型的基准案例中一致实现了相对 $L^{2}$ 误差为 $10^{-5}$,这种新颖的关联可能为理 - 利用速率函数理解插值范围内的泛化
本文提出了一种基于大偏差理论的模型平滑性的新颖描述方法,通过这种平滑性描述方法,阐述了为什么某些插值器能够表现出良好的泛化能力的统一理论解释,以及为什么一系列现代学习技术(如随机梯度下降,$L_2$- 范数正则化,数据增强,不变性结构和过度 - 环视优化器: $k$ 步内, 平均 1 步
本研究提出了 Lookaround 优化器,其通过迭代使用环绕步骤和平均步骤的方式训练多个网络,实现了促进网络多样性与提升泛化能力的效果,理论分析和实验表明该优化器优于现有方法。
- MultiAdam:面向多尺度物理信息神经网络的参数无关缩放优化器
本文讨论了采用 Physics-informed Neural Networks 方法求解偏微分方程时遇到的挑战,提出了 MultiAdam 优化器,通过大量实验测试表明,MultiAdam 在预测精度上相较于已有算法有 1-2 个数量级的 - MKOR: 基于动量的 Kronecker 因子优化器,采用 Rank-1 更新
提出了一种基于动量和 Krondcker 分解的因子为基础的优化器 MKOR 可以改善深度神经网络(DNN)的训练时间和收敛性能,通过提高二阶信息的更新频率和减少通信复杂度,MKOR 可以在处理大型语言模型时较好地适用,其表现超过了最先进的 - DoWG Unleashed: 高效通用无参梯度下降方法
DoWG 是一种新的易于实现的无需调参的梯度下降算法,通过保留运行平均差值的加权版本达到最佳状态,并显示出其适用于优化平滑和非平滑问题,同时还揭示了 AdaGrad 算法成功背后的基本原理。
- SING: 一种即插即用的深度神经网络学习技术
通过对 Adam (W) 进行标准化处理和梯度的标准化,提出了一种插拔式的技术 SING(稳定和标准化梯度),以实现优化器的稳定性和普适性。理论分析和实际实验都支持了该方法的有效性和实用性。