线性约束在线凸优化的乐观安全性

Mar, 2024

线性约束在线凸优化的乐观安全性

Optimistic Safety for Linearly-Constrained Online Convex Optimization

Spencer Hutchinson, Tianyi Chen, Mahnoosh Alizadeh

TL;DR在线凸优化（OCO）的未知约束设置是近年来备受关注的问题。本研究考虑了一种具有静态线性约束且玩家接收到噪声反馈并始终满足的问题版本。通过利用我们的乐观安全设计范例，我们提供了一种算法来解决该问题，其后悔值为 O (√T)。这比之前最佳后悔边界 O (T^2/3) 有所改进，并且只使用了更强烈一些的独立噪声和无意识对手的假设。然后，我们将该问题重新表述为随时间变化的随机线性约束下的 OCO 问题，并证明了我们的算法在这样的设置中具有相同的后悔保证，并且预期上不违反约束。这对于 OCO 在随时间变化的随机约束下的文献做出了贡献，其最先进的算法在约束为凸约束且玩家接收到完整反馈时具有 O (√T) 的后悔和 O (√T) 的违规。此外，我们提供了更加高效的算法版本，并通过与基准算法进行了数值实验比较。

Abstract

The setting of online convex optimization (OCO) under unknown constraints has garnered significant attention in recent years. In this work, we consider a version of this problem with static →

online convex optimization unknown constraints regret linear constraints stochastic constraints

发现论文，激发创造

随机约束下的在线凸优化

本文研究带随机约束的在线凸优化问题，提出了一种算法，能够达到预期和高概率的收益掉队和约束违反值等性能保证，并在真实数据中心调度问题上进行了实验验证。

Aug, 2017

具有对抗约束的在线凸优化的严格界

有关在线凸优化和约束在线凸优化的一篇研究论文，证明了一个在线策略可以同时实现 O (√T) 的遗憾和 θ̃(√T) 的累积约束违规，通过将 AdaGrad 算法的自适应遗憾界与 Lyapunov 优化相结合，达到了这一结果。

May, 2024

黑暗中的游戏：带有对抗性约束的无悔学习

我们研究了经典的在线凸优化（OCO）框架的一种推广，通过考虑额外的长期对抗性约束。我们提出了一种元策略，能够同时达到亚线性的累积约束违规和亚线性的遗憾，通过将约束问题转化为递归构建的一系列代理代价函数的标准 OCO 问题的黑盒减缩。我们展示了通过使用任何享有标准数据相关遗憾上界的自适应 OCO 策略求解代理问题，可以达到最优性能界限。通过一种新的基于李雅普诺夫的证明技术，我们揭示了遗憾和某些顺序不等式之间的联系，通过一种新颖的分解结果。最后，我们强调了在在线多任务学习和网络控制问题中的应用。

Oct, 2023

具有次指数噪声的无参数在线凸优化

研究了涉及亚指数噪声的无约束在线凸优化问题，设计了一种新的巴拿赫空间参数自由 OCO 算法 BANCO（Betting on Noisy Coins），证明了其具有最优的性能表现，并将其应用于局部随机梯度下降算法以及多次对数定律的应用。

Feb, 2019

利用可行集的曲率在在线凸优化中获得快速速率

基于在线凸优化和曲率的可行集合的分析，本文提出了一种新的方法通过利用可行集合的曲率来实现快速收敛，不仅可以适用于凸损失函数，同时还能在随机、对抗性和受干扰的环境下获得良好的性能。

Feb, 2024

无投影在线凸优化与时变约束

在线凸优化中，考虑具有对抗性时变约束的情景，在这种情况下，行动必须相对于固定约束集是可行的，同时在平均上还需要近似满足附加的时变约束。我们提出了一种算法，通过线性优化预言机（LOO）访问这个集合来保证在一个长度为 T 的序列上，通过总共 T 次对 LOO 的调用，相对于损失函数产生的后悔为 $ ilde {O}(T^{3/4})$，对于约束的违反是 $O (T^{7/8})$（忽略除了 $T$ 以外的所有量）。尤其地，这些边界适用于序列中的任何区间。我们还提出了一种更高效的算法，它仅需要对软约束进行一阶预言机访问，并在整个序列上获得类似的边界。我们将后者扩展到了强化学习的场景，并在期望上获得了类似的边界（作为 $T$ 的函数）。

Feb, 2024

未知约束的在线学习

在线学习中最小化后悔，满足安全约束的广义元算法，估计未知的安全约束，并将在线学习预测转化为满足未知安全约束的预测，同时使用预测误差、各类模型的复杂度和新的复杂度度量来界定算法的后悔上限，同时提供了线性约束情况下的具体算法，使用比例变换平衡乐观探索和悲观约束满足，最小化根号 T 的后悔。

Mar, 2024

在线凸优化算法（无内存限制）

本文提出了一个新的在线凸优化框架，能够利用过去的决策历史对当前损失进行建模，并引入了 “p 有效内存容量” 来量化过去决策对当前损失的最大影响。在此框架下，证明了一些政策遗憾的较好上界，并展示了该框架对于各种在线学习任务的适用性。

Oct, 2022

分散式在线凸优化的近优遗憾

我们在分散的在线凸优化中（D-OCO），通过仅使用本地计算和通信来最小化一系列全局损失函数的一组本地学习器。我们首先开发了一种新颖的 D-OCO 算法，将凸函数和强凸函数的遗憾边界分别降低到 O (nρ^{−1/4}√T) 和 O (nρ^{−1/2} log T)。通过设计一种在线加速的谣言策略并巧妙利用特定网络拓扑的谱特性，我们进一步提高了凸函数和强凸函数的下界为 Ω(nρ^{−1/4}√T) 和 Ω(nρ^{−1/2})。

Feb, 2024

将后悔换成效率：具有长期限制条件的在线凸优化

本文提出了解决约束在线凸优化问题的框架。通过将问题转化为在线凸 - 凹优化问题，提出了一种有效的算法，可以实现收敛性较好的结果。同时，本文还为从中提取多点强化信号的约束在线凸优化问题提供了解决方案。

Nov, 2011