- ScaleBiO: 面向 LLM 数据重新加权的可扩展的双层优化
本研究提出了第一种可扩展实例,称为 ScaleBiO,通过与一种称为 LISA 的新型算法相结合,使软件在八个 A40 GPU 上扩展到 34 亿参数的大型语言模型(LLM),标志着在实际应用场景中首次成功应用双层优化于大型 LLM。从实证 - 双动量方法用于下层约束双层优化
通过利用非光滑隐函数定理,提出一种新的双层约束双目标函数优化的超梯度方法,并基于双动量方法和自适应步长方法提出了一种单循环单时间尺度算法,经证明它可以返回一个(δ,ε)- 稳定点,迭代次数约为 O (d2^2ε^-4),在两个应用上的实验证 - SAIL:大型语言模型的自我改进高效在线对齐
在线学习对于语言模型的对齐与优化是至关重要的,本文提出了一种基于双层优化的在线对齐方法,并通过探索回应和调节偏好标签来迭代生成新样本和改进模型对齐效果,以实现自我提升和广义化先前的在线学习方法。这种方法相比于现有的迭代在线学习方法,在开源数 - 线性约束双层优化的一阶方法
具有有限时间超梯度稳定性保证的一阶线性约束优化方法在双层优化中遇到了带有高维度的 Hessian 计算,尽管最近的研究提供了非约束双层问题的一阶方法,但约束设置仍然相对较少探讨。我们提出了一种具有有限时间超梯度稳定性保证的一阶线性约束优化方 - 基于原始 - 对偶辅助罚函数的耦合约束双层优化方法
我们的论文研究了具有耦合约束的双层优化问题,并开发了一种名为 BLOCC 的(完全)一阶算法,实现对这一具有挑战性但较少被探索的场景的解决。我们为所提算法建立了严格的收敛理论,并通过使用塞维利亚城市的真实数据,对 SVM 中的超参数选择和交 - 具有下层背景上下文的随机双层优化与决策过程
我们介绍了一种基于情境马尔可夫决策过程(CMDP)的双层优化策略模型(BO-CMDP),该模型可以看作是领导者和随机情境共同决定多个马尔可夫决策过程(MDP)的设定,在各种应用中寻求最佳决策策略,进而应用于 MDP 模型设计、税务设计、奖励 - 具收敛保证的谱风险安全强化学习
我们提出了一种基于谱风险度量约束的增强学习算法,该算法利用了谱风险度量的对偶性,通过双层优化结构来实现收敛性和最优性,从而在表格设置中保证了最佳性能,并在连续控制任务中展现出了最好的性能。
- 加速的全一阶法在双层和极小极大优化问题中的应用
本文提出了一种新的算法成员,用于加速一阶双层优化方法,即 (Perturbed) Restarted Accelerated Fully First-order methods for Bilevel Approximation(PRAFB - iMTSP: 用命令式学习解决最小 - 最大多旅行商问题
该论文提出了一种新颖的自我监督、双层优化学习框架(imperative MTSP),将多旅行商问题(MTSP)通过强制性学习的方式分解为多个单旅行商问题(TSP),并使用控制变量梯度估计算法克服了梯度方差问题,实验证明该方法在大规模问题下比 - BiLO:用于 PDE 反问题的双层局部算子学习
我们提出了一种新的基于神经网络的方法,通过将 PDE 反问题建模为双层优化问题来解决偏微分方程(PDE)的反问题。
- LancBiO:基于 Krylov 子空间的动态 Lanczos 辅助双层优化
通过 Lanczos 方法构建低维近似 Krylov 子空间,解决偏导数求逆问题,提高双层优化问题的效率,并在合成问题和深度学习任务中展示了收敛速度和效率。
- 机器学习的功能双层优化
我们介绍了一种新的功能性观点,用于机器学习领域的双层优化问题,其中内部目标函数在函数空间上最小化。我们提出了可扩展和高效的算法来解决这个功能性双层优化问题,并且通过在仪器回归和强化学习任务上展示了我们方法的优点。
- BloomGML: 透过双层优化镜头看图机器学习
双层优化是指将下层能量函数的最优解作为上层感兴趣的目标的输入特征。本文说明了一系列图学习技术可以被重新解释为双层优化的特殊情况或简化形式,并提出了更灵活的能量函数类,形成图神经网络的消息传递层。此外,本文探索了与非图神经网络图学习方法的密切 - 提高超梯度估计:预条件和参数重参数化的研究
双层优化是一种针对依赖于内部优化问题解的外部目标函数进行优化的方法,在机器学习中广泛应用于超参数调整。本研究通过研究隐藏变量方法的误差,分析了两种减小误差的策略:预处理隐藏变量公式和重新参数化内部问题。我们详细说明了这两种修改对误差的影响, - 用于简单双层优化的加速梯度方法和凸下层问题
本研究关注简单的双层优化问题,提出一种新的双层优化方法,利用切割平面方法局部近似解决方案集合,应用加速梯度更新来减小上层目标函数,以实现子优性和不可行性错误的非渐近收敛保证。
- 随机双层优化中一阶方法的复杂度研究
通过使用 y^*-aware oracle,我们提出了一种简单的一阶方法,它可以使用 O (ε^{-6}),O (ε^{-4}) 的一阶 y^*-aware oracles 来收敛到一个 ε 稳定点。
- 基于原则的惩罚方法在双层强化学习和 RLHF 中的应用
通过惩罚的形式引入首个系统的算法框架,解决了新的双层强化学习问题,包括激励设计、逆向强化学习和人类反馈强化学习,通过在 Stackelberg Markov 游戏、人类反馈强化学习和激励设计中的模拟验证了算法的有效性。
- 黎曼流形上的双层优化框架
提出了一个在黎曼流形上求解双层优化问题的框架,研究了超梯度估计策略,分析了算法的收敛性和复杂度,扩展了到随机双层优化和一般回退的应用。
- Neur2BiLO: 神经双层最优化
通过使用神经网络近似技术,我们提出了一个名为 Neur2BiLO 的框架,用于解决具有整数变量的约束双层问题。Neur2BiLO 能够快速产生高质量的解决方案,适用于多种具有线性或非线性目标 / 约束和整数或混合整数变量的问题。
- ICLR无界平滑的双层优化:一种新算法和收敛性分析
设计了一种名为 BO-REP 的新的双层优化算法,用于解决具有潜在无界平滑性的神经网络在双层优化问题中的挑战。证明了在随机环境下,该算法需要大约 1/ε^4 次迭代来找到一个 ε- 稳定点,结果与有界平滑度设置和没有均方平滑性的随机梯度的最