- 动态拜占庭强健学习:适应切换拜占庭节点
提出了一种能够抵抗动态帝国拜占庭行为的新方法 DynaBRO,结合多级蒙特卡洛梯度估计技术与鲁棒聚合工人更新的方法,并利用自适应学习率消除了对拜占庭工人百分比的需求。
- AdaLomo:自适应学习率的低内存优化
大型语言模型通常需要较大的内存来训练,但低内存优化(LOMO)技术通过引入自适应学习率以及矩阵分解等方法,降低了内存需求并与 AdamW 优化器在大语言模型上表现相当。
- 上下文马尔可夫决策过程中的策略梯度方法步长学习
本文提出一种基于元强化学习的新框架 meta-MDP,用于解决强化学习中精细的特定超参数选取问题,通过动态推荐不同策略和任务的步长,实现了在异构环境下选择自适应学习率的优势。
- 基于角度的梯度下降动态学习率
提出了一种新颖而简单的自适应梯度下降方法,使用当前梯度和新梯度之间的角度代替传统方法中的梯度期望,通过角度历史记录确定更好的自适应学习率,从而比现有的最先进的优化器在大多数数据集上实现更高的准确性,并证明了该方法的收敛性。
- 量化自适应次梯度算法及其应用
为了在分布式模型训练中平衡通信成本、模型容量和模型性能,本文提出了分布式训练的量化复合镜像下降自适应子梯度(QCMD adagrad)和量化正则化双均值自适应子梯度(QRDA adagrad)算法,利用梯度量化和稀疏模型降低每次迭代中的通信 - 为推荐系统的在线更新进行元学习
介绍了 MeLON 一种用于在线推荐系统的元学习更新策略,其支持两向灵活性,通过自适应学习率来快速学习到用户的最新兴趣,并且在三个真实的在线推荐数据集上进行了广泛的评估和理论分析。
- KDDMaxVA:通过最大化梯度观测方差快速调整步长
本文提出一种自适应学习率原则,通过将 Adam 中的平方梯度的运行平均替换为加权平均来实现。该方法比解决 Adam 中不稳定或过大的自适应学习率的 AMSGrad 和 AdaBound 等方法更有效,在机器翻译,自然语言理解和大批量预训练 - ICLRAdaShift: 自适应学习率方法的去相关性和收敛性
本文提出了一个名为 AdaShift 的新型自适应学习率方法,通过时间移位来实现 v_t 和 g_t 的去相关,解决了 Adam 的不收敛问题,并证明了其训练速度和泛化能力与 Adam 不相上下。
- 统一动量的加权 AdaGrad 算法
通过引入重加权 AdaGrad 联合动量,AdaUSM 在解决难以收敛的随机问题时,其带权高斯平均符合实时梯度下降法 (SGD) 和 AdaGrad 的学习率下降速度,同时还能实现 SGD 动量和 Nesterov 学习率全方位的整合。
- 怀旧的 Adam: 在设计自适应学习率时更注重过去时刻的梯度加权
我们提出了一种称为 Nostalgic Adam(NosAdam)的算法,通过更多考虑过去的梯度并设计自适应学习率,解决了类似于 Adam 的算法中缺乏长期记忆的问题,并在最佳已知收敛率下具有理论上的收敛保证。
- 深度学习的鲁棒自适应随机梯度方法
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
- ICML在线序列预测的平滑模仿学习
研究在线序列预测的平滑模仿学习问题,通过学习缩减的方法将其降低到回归问题,并采用正则化复杂函数类以确保平滑度。提出了一种元算法,实现快速稳定地收敛到好的策略,相比于以前的方法,具有全部确定性、自适应学习率等优点,并能保证稳定收敛,实证结果证 - IJCAI基于协方差矩阵预处理的深度神经网络自适应学习率
本文提出了一种名为 SDProp 的自适应学习率算法,通过协方差矩阵预处理来有效处理由随机优化引起的噪声,该算法针对各种神经网络具有比 RMSProp 及其变体更高的效率和有效性。
- 非凸优化的平衡自适应学习率
该论文提出了一种基于 equilibration preconditioner 的新型自适应学习率方法:ESGD,与 RMSProp 相比收敛速度更快,在非凸问题上表现更好。
- ICLRADASECANT:用于随机梯度的鲁棒自适应割线法
本文介绍一种新的自适应学习率算法,该算法利用曲率信息自动调整学习率,并提出一种新的方差缩减技术来加速收敛。在深度神经网络的初步实验中,与常见的随机梯度算法相比获得了更好的性能。