深层模型零阶优化的随机两点方法

Feb, 2024

深层模型零阶优化的随机两点方法

Stochastic Two Points Method for Deep Model Zeroth-order Optimization

Yijiang Pang, Jiayu Zhou

TL;DR该研究介绍了零阶方法在大型深度模型优化中的应用，提出了一种高效的随机双点（S2P）方法及其加速变种（AS2P），通过利用新的收敛性质，成功优化了大型深层模型的目标函数，相对于标准方法在训练中加快了 2 倍的速度。

Abstract

large foundation models, such as large language models, have performed exceptionally well in various application scenarios. Building or fully fine-tuning such large models is usually prohibitive due to either hardware budget or lack of access to backpropagation. The →

large foundation models zeroth-order methods stochastic two-point acceleration s2p optimizing objectives

发现论文，激发创造

加速的随机无梯度投影方法

本文提出了一种加速的随机零阶 Frank-Wolfe 优化算法，通过使用 SPIDER/SpiderBoost 技术和一种新的动量加速技术，它可以在非凸优化中实现 O (d√nε⁻²) 的函数查询复杂度，并改进了现有最佳结果，同时在随机问题中实现了 O (dε⁻³) 的函数查询复杂度，同时提出了基于 STORM 的 Acc-SZOFW *，它不需要大批量也可以达到与 Acc-SZOFW 相同的函数查询复杂度。

Jul, 2020

深度学习可扩展的二阶优化

本文尝试缩小理论优化与实际优化之间的差距，提出了一种可扩展的二阶预处理方法来优化深度模型，利用异构硬件架构进行训练，相比于常规一阶方法在机器翻译、语言建模、点击率预测和图像分类等任务中表现出优异的性能。

Feb, 2020

线性时间内的机器学习二阶随机优化

本文提出了一种可以匹配第一阶段方法迭代成本的机器学习优化问题的二阶随机方法，具有线性时间实现的稀疏输入数据。

Feb, 2016

快速二次时间尺度随机梯度法及其在强化学习中的应用

提出了一种用于解决两时间尺度优化问题的新方法，通过利用平均化步骤改善算子的估计，消除了主要变量之间的直接耦合，从而大大加快了收敛速度，并在强凸性、凸性、Polyak-Lojasiewicz 条件和一般非凸性等各种情况下改进了传统两时间尺度随机逼近算法的复杂性，该算法在强化学习中表现出色，超越或与现有的最先进方法相匹配，并通过强化学习中的数值模拟验证了理论结果。

May, 2024

无梯度的零阶方法高效避免鞍点

本文研究了非凸优化中的无导数算法，利用有限差分器进行梯度逼近，最终提出了一种使用嘈杂的零阶方法来避免鞍点的算法，并在收敛速度上达到了与精确梯度接近的性能。

Oct, 2019

非凸随机零阶优化：处理约束、高维度和鞍点

本文提出了针对非凸和凸优化的零阶随机逼近算法，并关注解决约束优化、高维设置和避免鞍点等问题。我们探索了结构稀疏假设的优点，并提出了一种使用零阶信息的被截断随机梯度算法和一种避免鞍点的算法，并讨论了它们的收敛率。

Sep, 2018

将随机梯度推向二阶方法 —— 通过非线性变换的反向传播学习

本研究提出针对神经网络的三个转换方法，以近似二阶优化方法提高学习速度，但第三个转换可能因收敛到局部最优解且隐藏神经元的输入和输出接近零而对性能造成损害。

Jan, 2013

DeepZero：扩展零阶优化以提升深度模型训练

DeepZero 是一个基于 Zeroth-order optimization 的深度学习框架，通过三个主要创新使得 ZO 优化可用于深度神经网络的训练，同时实现了与一阶优化相当的性能，其优点包括坐标梯度估计（CGE）在训练准确性和计算效率上的优势，以及利用模型剪枝方法扩展稀疏 DL 先验信息的 ZO 训练协议，并通过特征重用和前向并行化方法提高 ZO 训练的实际实施。

Oct, 2023

规模化大型语言模型微调的差分隐私零阶方法

本文研究了差分隐私零阶方法在预训练语言模型中的潜力，通过近似梯度避免了 SGD 的可扩展性瓶颈，并提出了动态调度超参数的阶段性差分隐私零阶方法和减少可训练参数的数据无关剪枝技术，从理论和实证分析了这两种方法的效果。

Feb, 2024

无约束平滑极小化的小批量随机三点方法

本文提出了一种名为 MiSTP 的零阶优化方法，用于解决仅能得到目标函数近似值的无约束极小化问题，并在非凸和凸情况下分析了方法的复杂度，并在多个机器学习任务上评估了其性能。

Sep, 2022