一种用于随机双层优化的全一阶方法

Jan, 2023

一种用于随机双层优化的全一阶方法

A Fully First-Order Method for Stochastic Bilevel Optimization

Jeongyeol Kwon, Dohyun Kwon, Stephen Wright, Robert Nowak

TL;DR本研究提出一种全一阶随机逼近方法用于解决双层无约束随机优化问题，该方法具有收敛性及优异的实际性能，并且可以使用动量辅助的梯度估计器进一步提高收敛速度。

Abstract

We consider stochastic unconstrained bilevel optimization problems when only the first-order gradient oracles are available. While numerous optimization methods have been proposed for tackling bilevel problems, existing methods either tend to require possibly expensive calculations reg

bilevel optimization stochastic approximation convergence properties momentum-assisted gradient estimators mnist

发现论文，激发创造

双层优化中寻找静止点的近最优全一阶算法

本文讨论了双层优化问题，提出了第一和第二阶段方法，探究了优化的复杂度和速度，并提出了适用于分布式双层问题的简单算法。

Jun, 2023

随机双层优化中一阶方法的复杂度研究

通过使用 y^*-aware oracle，我们提出了一种简单的一阶方法，它可以使用 O (ε^{-6})，O (ε^{-4}) 的一阶 y^*-aware oracles 来收敛到一个 ε 稳定点。

Feb, 2024

经由高斯平滑的全零阶双层规划

本文研究使用零阶随机逼近算法解决双层问题，无论是上 / 下目标值还是它们的无偏梯度估计都不可用。通过利用斯坦恩恒等式，首先使用高斯平滑估计具有两个独立块变量的函数的一阶和二阶偏导数。然后，在随机逼近算法框架中使用这些估计来解决双层优化问题，并建立其非渐近收敛分析。据我们所知，这是第一次为完全随机零阶双层优化算法建立样本复杂度界限。

Mar, 2024

无投影方法用于具有凸下层问题的随机简单双层优化

我们研究了一类随机二级优化问题，引入了一种新颖的随机二级优化方法，通过随机切割平面局部逼近下层问题的解集，并运行带有方差减少技术的条件梯度更新来控制由于使用随机梯度引起的误差。在上层函数为凸函数的情况下，我们的方法需要最多 $\tilde {\mathcal {O}}(\max\{1/\epsilon_f^{2},1/\epsilon_g^{2}\})$ 个随机 oracle 查询，得到一个上层函数精度为 $\epsilon_f$、下层函数精度为 $\epsilon_g$ 的解，这一保证改进了之前已知的复杂性 $\mathcal {O}(\max\{1/\epsilon_f^{4},1/\epsilon_g^{4}\})$。此外，在上层函数为非凸函数的情况下，我们的方法需要最多 $\tilde {\mathcal {O}}(\max\{1/\epsilon_f^{3},1/\epsilon_g^{3}\})$ 个随机 oracle 查询，找到一个 $(\epsilon_f, \epsilon_g)$- 稳定点。在有限和问题设置中，对于凸和非凸情况下，我们的方法所需的随机 oracle 调用次数分别为 $\tilde {\mathcal {O}}(\sqrt {n}/\epsilon)$ 和 $\tilde {\mathcal {O}}(\sqrt {n}/\epsilon^{2})$，其中 $\epsilon=\min \{\epsilon_f,\epsilon_g\}$。

Aug, 2023

非凸双层优化与一阶随机逼近的惩罚方法

本文主要研究双层优化的一阶算法，目标函数在两个层次上都是光滑但可能非凸的，变量限制在闭凸集合中。首先通过罚函数方法，研究了双层优化的景观，并建立了罚函数与超目标之间的强连接。接着，提出了一阶算法来优化罚函数，以找到一个 ε- 稳定解。在满足小误差近似条件的情况下，算法以 O (ε^{-3}) 和 O (ε^{-7}) 程度的复杂度达到 ε- 稳定点。在随机预言机的额外假设下，算法的实现可以完全使用单循环方式，并分别达到 O (ε^{-3}) 和 O (ε^{-5}) 的优化复杂度。

Sep, 2023

在无 Hessian/Jacobian 的随机双层优化中实现 ${O}(ε^{-1.5})$ 复杂度

本文提出了一种新的 Hessian/Jacobian-free 双层优化器 FdeHBO，通过每次迭代使用 O (1) 个样本和仅一阶梯度信息，在非凸 - 强凸随机双层优化中实现了 O (ε^(-1.5)) 样本复杂度，达到 ε- 精确的稳定点。

Dec, 2023

线性约束双层优化的一阶方法

具有有限时间超梯度稳定性保证的一阶线性约束优化方法在双层优化中遇到了带有高维度的 Hessian 计算，尽管最近的研究提供了非约束双层问题的一阶方法，但约束设置仍然相对较少探讨。我们提出了一种具有有限时间超梯度稳定性保证的一阶线性约束优化方法，在线性等式约束下，我们可以在 O (ϵ^{-2}) 次梯度预言调用中获得 ϵ- 稳定性，这几近是最优的。在线性不等式约束下，我们可以在 O (dδ^{-1}ϵ^{-3}) 次梯度预言调用中获得 (δ,ϵ)-Goldstein 稳定性，其中 d 是上层维度。最后，我们在额外假设有对最优对偶变量的 oracle 访问的情况下，在线性不等式设置下获得无维度的 O (δ^{-1}ϵ^{-4}) 的 oracle 复杂度。在此过程中，我们发展了新的非平滑非凸优化方法来处理不完全的预言。我们通过初步的数值实验验证了这些保证。

Jun, 2024

一种用于随机双层优化的单时间尺度方法

本论文提出了一种单时间尺度的随机双层最优化算法 (STABLE)，用于解决机器学习中的双层次优化问题，具有较高的效率和样本复杂度。

Feb, 2021

一种基于双动量的随机双层优化近似最优算法

本文提出了一种新算法：单时间尺度双动量随机逼近算法（SUSTAIN），用于解决随机无约束双层优化问题，重点关注下层子问题为强凸的双层问题和上层目标函数光滑情况下的解决方案，通过设计一种随机动量辅助梯度估计器来控制解决子问题的不准确性带来的随机梯度更新的误差，从而实现解决双层最优化问题的目的，其样本复杂度与传统单层随机梯度算法的最优复杂度相当。

Feb, 2021

松弛平滑条件下随机双层优化的最优算法

本文提出了一种新的完全单循环和免除海森矩阵的算法框架，用于随机双层优化，并在标准光滑性假设下提出了更紧密的分析，进而展示了算法的普遍性。

Jun, 2023