高效非凸约束优化的双人博弈
本文提出了一种代理 - 拉格朗日新公式,以及用于解决非凸或不可区分约束下的非凸模型训练问题的随机分类器算法,并在精度、覆盖率、准确性、回调和客户流失率等多个方面的实验结果证明了其效果。
Sep, 2018
本文中我们考虑在闭凸子集上最小化一个非光滑非凸的目标函数 $f (x)$,同时满足附加的非光滑非凸约束 $c (x) = 0$。我们开发了一个统一的框架来发展基于 Lagrangian 的方法,在每次迭代中通过某些子梯度方法对原始变量进行单步更新。这些子梯度方法被 “嵌入” 到我们的框架中,以黑盒更新原始变量的方式加以合并。我们证明了在温和条件下,我们提出的框架继承了这些嵌入子梯度方法的全局收敛性保证。此外,我们证明了我们的框架可以扩展到解决具有期望约束的约束优化问题。基于我们提出的框架,我们展示了一系列现有的随机子梯度方法,包括 proximal SGD、proximal momentum SGD 和 proximal ADAM,可以嵌入到基于 Lagrangian 的方法中。对深度学习任务的初步数值实验表明,我们提出的框架可以为非凸非光滑约束优化问题提供高效的 Lagrangian-based 方法变体,并具有收敛性保证。
Apr, 2024
本文提出一种使用基于占用测度的拉格朗日优化方法来解决约束马尔可夫博弈的在线安全强化学习算法,经更新的 minimax 决策原始变量和双重变量,达到亚线性后悔率和约束违规率,实现对马尔可夫博弈的高效学习。
May, 2023
本研究提出一种混合方法,结合响应面建模、期望改进和增广拉格朗日数值优化框架,以解决拥有复杂约束的组合优化问题,该方法可以将全局思维与局部操作结合起来,可应用于高成本的仿真评估和建模工作,提高已有的目标导向统计方法的效率。
Mar, 2014
本文研究了无约束在线线性优化博弈中最小化后悔的算法,其中对于一个有界比较器集合,得到了该博弈的解及其渐进行为,同时针对更宽松的惩罚函数提出了相应的算法并得到了渐进解。
Feb, 2013
我们在无限维希尔伯特空间中提出了两种受限优化算法的深度学习实现,分别是罚函数法和增广拉格朗日法。通过在变分法或物理学中起源的一些玩具问题上测试这些算法,我们证明这两种方法能够为测试问题提供相当准确的近似,并且在不同误差方面具有可比性。利用拉格朗日乘子更新规则在计算上比在罚函数法中求解子问题更便宜的常见情况,当约束函数的输出本身是一个函数时,我们实现了显著的加速。
Jan, 2024