深层模型零阶优化的随机两点方法
本文提出了一种加速的随机零阶 Frank-Wolfe 优化算法,通过使用 SPIDER/SpiderBoost 技术和一种新的动量加速技术,它可以在非凸优化中实现 O (d√nε⁻²) 的函数查询复杂度,并改进了现有最佳结果,同时在随机问题中实现了 O (dε⁻³) 的函数查询复杂度,同时提出了基于 STORM 的 Acc-SZOFW *,它不需要大批量也可以达到与 Acc-SZOFW 相同的函数查询复杂度。
Jul, 2020
本文尝试缩小理论优化与实际优化之间的差距,提出了一种可扩展的二阶预处理方法来优化深度模型,利用异构硬件架构进行训练,相比于常规一阶方法在机器翻译、语言建模、点击率预测和图像分类等任务中表现出优异的性能。
Feb, 2020
提出了一种用于解决两时间尺度优化问题的新方法,通过利用平均化步骤改善算子的估计,消除了主要变量之间的直接耦合,从而大大加快了收敛速度,并在强凸性、凸性、Polyak-Lojasiewicz 条件和一般非凸性等各种情况下改进了传统两时间尺度随机逼近算法的复杂性,该算法在强化学习中表现出色,超越或与现有的最先进方法相匹配,并通过强化学习中的数值模拟验证了理论结果。
May, 2024
本文研究了非凸优化中的无导数算法,利用有限差分器进行梯度逼近,最终提出了一种使用嘈杂的零阶方法来避免鞍点的算法,并在收敛速度上达到了与精确梯度接近的性能。
Oct, 2019
本文提出了针对非凸和凸优化的零阶随机逼近算法,并关注解决约束优化、高维设置和避免鞍点等问题。我们探索了结构稀疏假设的优点,并提出了一种使用零阶信息的被截断随机梯度算法和一种避免鞍点的算法,并讨论了它们的收敛率。
Sep, 2018
本研究提出针对神经网络的三个转换方法,以近似二阶优化方法提高学习速度,但第三个转换可能因收敛到局部最优解且隐藏神经元的输入和输出接近零而对性能造成损害。
Jan, 2013
DeepZero 是一个基于 Zeroth-order optimization 的深度学习框架,通过三个主要创新使得 ZO 优化可用于深度神经网络的训练,同时实现了与一阶优化相当的性能,其优点包括坐标梯度估计(CGE)在训练准确性和计算效率上的优势,以及利用模型剪枝方法扩展稀疏 DL 先验信息的 ZO 训练协议,并通过特征重用和前向并行化方法提高 ZO 训练的实际实施。
Oct, 2023
本文研究了差分隐私零阶方法在预训练语言模型中的潜力,通过近似梯度避免了 SGD 的可扩展性瓶颈,并提出了动态调度超参数的阶段性差分隐私零阶方法和减少可训练参数的数据无关剪枝技术,从理论和实证分析了这两种方法的效果。
Feb, 2024
本文提出了一种名为 MiSTP 的零阶优化方法,用于解决仅能得到目标函数近似值的无约束极小化问题,并在非凸和凸情况下分析了方法的复杂度,并在多个机器学习任务上评估了其性能。
Sep, 2022