黑暗中的游戏：带有对抗性约束的无悔学习

Oct, 2023

黑暗中的游戏：带有对抗性约束的无悔学习

Playing in the Dark: No-regret Learning with Adversarial Constraints

Abhishek Sinha, Rahul Vaze

TL;DR我们研究了经典的在线凸优化（OCO）框架的一种推广，通过考虑额外的长期对抗性约束。我们提出了一种元策略，能够同时达到亚线性的累积约束违规和亚线性的遗憾，通过将约束问题转化为递归构建的一系列代理代价函数的标准 OCO 问题的黑盒减缩。我们展示了通过使用任何享有标准数据相关遗憾上界的自适应 OCO 策略求解代理问题，可以达到最优性能界限。通过一种新的基于李雅普诺夫的证明技术，我们揭示了遗憾和某些顺序不等式之间的联系，通过一种新颖的分解结果。最后，我们强调了在在线多任务学习和网络控制问题中的应用。

Abstract

We study a generalization of the classic online convex optimization (OCO) framework by considering additional long-term adversarial constraints. Specifically, after an online policy decides its action on a round,

online convex optimization adversarial constraints meta-policy sublinear regret lyapunov-based proof technique

发现论文，激发创造

具有对抗约束的在线凸优化的严格界

有关在线凸优化和约束在线凸优化的一篇研究论文，证明了一个在线策略可以同时实现 O (√T) 的遗憾和 θ̃(√T) 的累积约束违规，通过将 AdaGrad 算法的自适应遗憾界与 Lyapunov 优化相结合，达到了这一结果。

May, 2024

在线凸优化算法（无内存限制）

本文提出了一个新的在线凸优化框架，能够利用过去的决策历史对当前损失进行建模，并引入了 “p 有效内存容量” 来量化过去决策对当前损失的最大影响。在此框架下，证明了一些政策遗憾的较好上界，并展示了该框架对于各种在线学习任务的适用性。

Oct, 2022

线性约束在线凸优化的乐观安全性

在线凸优化（OCO）的未知约束设置是近年来备受关注的问题。本研究考虑了一种具有静态线性约束且玩家接收到噪声反馈并始终满足的问题版本。通过利用我们的乐观安全设计范例，我们提供了一种算法来解决该问题，其后悔值为 O (√T)。这比之前最佳后悔边界 O (T^2/3) 有所改进，并且只使用了更强烈一些的独立噪声和无意识对手的假设。然后，我们将该问题重新表述为随时间变化的随机线性约束下的 OCO 问题，并证明了我们的算法在这样的设置中具有相同的后悔保证，并且预期上不违反约束。这对于 OCO 在随时间变化的随机约束下的文献做出了贡献，其最先进的算法在约束为凸约束且玩家接收到完整反馈时具有 O (√T) 的后悔和 O (√T) 的违规。此外，我们提供了更加高效的算法版本，并通过与基准算法进行了数值实验比较。

Mar, 2024

随机约束下的在线凸优化

本文研究带随机约束的在线凸优化问题，提出了一种算法，能够达到预期和高概率的收益掉队和约束违反值等性能保证，并在真实数据中心调度问题上进行了实验验证。

Aug, 2017

在线凸优化下的在线次模最大化

研究了在线环境下的通用拟阵约束下的单调子模最大化问题，证明了一大类子模函数在在线凸优化问题中的优化等价性，通过合适的舍入方案，实现了在组合优化中达到次线性后悔的 OCO 算法。同时，该规约也适用于多种不同版本的在线学习问题，包括动态后悔、游走和乐观学习等。

Sep, 2023

具有次指数噪声的无参数在线凸优化

研究了涉及亚指数噪声的无约束在线凸优化问题，设计了一种新的巴拿赫空间参数自由 OCO 算法 BANCO（Betting on Noisy Coins），证明了其具有最优的性能表现，并将其应用于局部随机梯度下降算法以及多次对数定律的应用。

Feb, 2019

将后悔换成效率：具有长期限制条件的在线凸优化

本文提出了解决约束在线凸优化问题的框架。通过将问题转化为在线凸 - 凹优化问题，提出了一种有效的算法，可以实现收敛性较好的结果。同时，本文还为从中提取多点强化信号的约束在线凸优化问题提供了解决方案。

Nov, 2011

未知约束的在线学习

在线学习中最小化后悔，满足安全约束的广义元算法，估计未知的安全约束，并将在线学习预测转化为满足未知安全约束的预测，同时使用预测误差、各类模型的复杂度和新的复杂度度量来界定算法的后悔上限，同时提供了线性约束情况下的具体算法，使用比例变换平衡乐观探索和悲观约束满足，最小化根号 T 的后悔。

Mar, 2024

一种动态网络资源分配的在线凸优化方法

该论文探讨了在线凸优化涉及敌对损失函数和敌对约束的情况，开发了一种修改的在线鞍点（MOSP）方案，并在动态网络资源分配任务中进行了应用，证明了其相对于梯度方法的性能优势。

Jan, 2017

无投影在线凸优化与时变约束

在线凸优化中，考虑具有对抗性时变约束的情景，在这种情况下，行动必须相对于固定约束集是可行的，同时在平均上还需要近似满足附加的时变约束。我们提出了一种算法，通过线性优化预言机（LOO）访问这个集合来保证在一个长度为 T 的序列上，通过总共 T 次对 LOO 的调用，相对于损失函数产生的后悔为 $ ilde {O}(T^{3/4})$，对于约束的违反是 $O (T^{7/8})$（忽略除了 $T$ 以外的所有量）。尤其地，这些边界适用于序列中的任何区间。我们还提出了一种更高效的算法，它仅需要对软约束进行一阶预言机访问，并在整个序列上获得类似的边界。我们将后者扩展到了强化学习的场景，并在期望上获得了类似的边界（作为 $T$ 的函数）。

Feb, 2024