无投影在线凸优化与时变约束

Feb, 2024

Projection-Free Online Convex Optimization with Time-Varying Constraints

Dan Garber, Ben Kretzu

TL;DR在线凸优化中，考虑具有对抗性时变约束的情景，在这种情况下，行动必须相对于固定约束集是可行的，同时在平均上还需要近似满足附加的时变约束。我们提出了一种算法，通过线性优化预言机（LOO）访问这个集合来保证在一个长度为 T 的序列上，通过总共 T 次对 LOO 的调用，相对于损失函数产生的后悔为 $ ilde {O}(T^{3/4})$，对于约束的违反是 $O (T^{7/8})$（忽略除了 $T$ 以外的所有量）。尤其地，这些边界适用于序列中的任何区间。我们还提出了一种更高效的算法，它仅需要对软约束进行一阶预言机访问，并在整个序列上获得类似的边界。我们将后者扩展到了强化学习的场景，并在期望上获得了类似的边界（作为 $T$ 的函数）。

Abstract

We consider the setting of online convex optimization with adversarial time-varying constraints in which actions must be feasible w.r.t. a fixed constraint set, and are also required on average to approximately satisfy additional time-varying constraints. Motivated by scenarios in whic

online convex optimization adversarial time-varying constraints projection-free algorithms linear optimization oracle regret bounds

发现论文，激发创造

无投影在线随机约束凸优化

本研究提出了一种新的不需要投影的算法框架来解决在线凸优化问题，该算法框架具有较好的性能表现并可处理多种约束情况。

May, 2023

将后悔换成效率：具有长期限制条件的在线凸优化

本文提出了解决约束在线凸优化问题的框架。通过将问题转化为在线凸 - 凹优化问题，提出了一种有效的算法，可以实现收敛性较好的结果。同时，本文还为从中提取多点强化信号的约束在线凸优化问题提供了解决方案。

Nov, 2011

无投影赌博凸优化改进遗憾界

本文提出一种基于条件梯度法的 projection-free 的算法，通过线性优化预测每一轮的动作并达到了 $O (T^{3/4})$ 的预期最小化损失 (expected regret)。

Oct, 2019

约束在线凸优化的梯度变差限制

本文研究带复杂约束条件下在线凸优化问题，提出了一种基于镜像投影算法的新算法，可以在任何范数空间中实现低后悔和低约束违反度。

Jun, 2020

时变约束在线凸优化

本文研究了具有时间变化的约束条件的在线凸优化问题，并提出了一种算法，其收敛性具有一定的时间复杂度，并且可以在没有先验知识的情况下达到无偏的最优解。

Feb, 2017

Riemannian 无投影在线学习

本文介绍了在曲面上进行在线几何凸优化时如何通过投影自由算法，在有分离预言机或线性优化预言机的情况下实现亚线性后悔保证。

May, 2023

对抗性非线性约束下的在线学习

本研究提出了一种名为 CVV-Pro 的算法，通过利用局部稀疏线性逼近来处理不断变化的非线性约束条件的连续数据流，在面对共享限制的两人博弈时表现良好。

Jun, 2023

带长期约束的在线凸优化自适应算法

提出了一种适应性在线梯度下降算法，用于解决具有长期约束的在线凸优化问题，可以处理任意凸约束，该算法在损失和约束违规方面分别具有 O (T^max {β,1−β}) 和 O (T^(1−β/2)) 的累积遗憾界，优于 Mahdavi 等（2012 年）最好的已知累积遗憾界，该算法的性能已在实践中得到验证。

Dec, 2015

线性约束在线凸优化的乐观安全性

在线凸优化（OCO）的未知约束设置是近年来备受关注的问题。本研究考虑了一种具有静态线性约束且玩家接收到噪声反馈并始终满足的问题版本。通过利用我们的乐观安全设计范例，我们提供了一种算法来解决该问题，其后悔值为 O (√T)。这比之前最佳后悔边界 O (T^2/3) 有所改进，并且只使用了更强烈一些的独立噪声和无意识对手的假设。然后，我们将该问题重新表述为随时间变化的随机线性约束下的 OCO 问题，并证明了我们的算法在这样的设置中具有相同的后悔保证，并且预期上不违反约束。这对于 OCO 在随时间变化的随机约束下的文献做出了贡献，其最先进的算法在约束为凸约束且玩家接收到完整反馈时具有 O (√T) 的后悔和 O (√T) 的违规。此外，我们提供了更加高效的算法版本，并通过与基准算法进行了数值实验比较。

Mar, 2024

无投影随机凸优化

该论文提出了第一个计算有效的基于投影的算法来解决 Bandit 凸优化问题，并以各种问题（包括二次规划、组合优化和矩阵完成问题）上的实验结果证明了其性能。

May, 2018