在线凸优化的广义方法

Feb, 2024

A Generalized Approach to Online Convex Optimization

Mohammad Pedramfar, Vaneet Aggarwal

TL;DR本研究分析了在线凸优化问题在不同情境下的处理方法，并在具有完全适应性对手的在线线性优化算法为在线凸优化算法提供了一个模板，同时将需要完全信息反馈的算法转换为具有相近遗憾界限的半强盗反馈算法。此外，通过对半强盗反馈中使用确定性算法的完全适应性对手和使用随机算法的毫无意识对手进行比较，我们证明了可以在面对不可避免对手时，设计针对完全适应性对手的算法使用仅具有随机半强盗反馈也能获得类似界限。基于此，我们提出了将一阶算法转换为零阶算法，并具有相近遗憾界限的通用元算法框架。我们的框架允许在不同情境下分析在线优化，如全信息反馈、强盗反馈、随机遗憾、对手遗憾和各类非稳定遗憾。利用我们的分析，我们提供了第一个使用线性优化预言机的无投影在线凸优化算法。

Abstract

In this paper, we analyze the problem of online convex optimization in different settings. We show that any algorithm for online linear optimization with →

online convex optimization linear optimization fully adaptive adversaries regret bound stochastic semi-bandit feedback

发现论文，激发创造

赌博机凸优化问题的最优算法

本文针对带有随机反馈的在线凸优化问题（称为 bandit convex optimization），通过将椭球法应用于在线学习，给出了第一个 $\tilde {O}(\sqrt {T})$-regret 算法，并引入了离散凸几何中的新工具。

Mar, 2016

现代在线学习简介

本文介绍了在线学习的基本概念和现代在线凸优化的视角，并针对凸丢失，在欧几里得和非欧几里得环境中介绍了一阶和二阶算法。同时，还特别关注了算法参数调优和在无界域上的学习，并介绍了对非凸损失的处理方法和信息缺失的决策问题中的多臂赌博机问题。

Dec, 2019

联邦在线与强盗凸优化

我们研究了面对自适应对手时的分布式在线和掷骰机凸优化问题。我们旨在在 $M$ 个并行工作的机器上通过 $T$ 轮和 $R$ 次间歇通信来最小化平均遗憾。在假设底层成本函数是凸函数并且可以自适应生成的情况下，我们的研究结果表明，在机器能够访问所查询点的一阶梯度信息时，合作是没有益处的。这与对于随机函数的情况形成了对比，其中每台机器从固定分布中抽样成本函数。此外，我们深入研究了带有掷骰机（零阶）反馈的联邦在线优化更具挑战性的情况，在该情况下，机器只能访问所查询点的成本函数值。这里的关键发现是确定合作有益且甚至可能导致机器数量的线性加速的高维度情况。我们通过开发新的分布式单点和双点反馈算法，进一步说明了我们的研究结果在联邦对抗线性掷骰机中的应用。我们的工作是对限制反馈的联邦在线优化的系统理解的首次尝试，并在间歇通信情况下获得了一阶和零阶反馈的严格遗憾界。因此，我们的研究填补了联邦在线优化中随机和自适应环境之间的差距。

Nov, 2023

在线一位反馈随机线性优化

本文研究在线随机线性优化的特殊赌徒环境，其中每轮只有一位信息被揭示给学习者。我们假定二元反馈是从对数模型产生的随机变量，并旨在最小化未知线性函数定义的遗憾。为了解决此挑战，我们通过利用观测模型的特定结构开发了一种高效的在线学习算法。

Sep, 2015

风险规避的随机凸臂老虎机

本文研究了在线凸优化的问题，在该问题中，决策者是风险规避的。我们提供了两个算法来解决这个问题。第一个是降落算法，易于实现。第二个算法结合了椭圆体方法和中心点装置，对于回合数实现了（几乎）最优的后悔界限。据我们所知，这是在在线凸博弈问题中首次尝试解决风险规避问题。

Oct, 2018

将后悔换成效率：具有长期限制条件的在线凸优化

本文提出了解决约束在线凸优化问题的框架。通过将问题转化为在线凸 - 凹优化问题，提出了一种有效的算法，可以实现收敛性较好的结果。同时，本文还为从中提取多点强化信号的约束在线凸优化问题提供了解决方案。

Nov, 2011

无约束在线凸优化的无悔算法

本文提出了在线凸优化算法来解决无约束情况下在线预测和分类的问题，并证明了其相对于参数 x^* 几乎达到最优的遗憾界。

Nov, 2012

无投影在线凸优化与时变约束

在线凸优化中，考虑具有对抗性时变约束的情景，在这种情况下，行动必须相对于固定约束集是可行的，同时在平均上还需要近似满足附加的时变约束。我们提出了一种算法，通过线性优化预言机（LOO）访问这个集合来保证在一个长度为 T 的序列上，通过总共 T 次对 LOO 的调用，相对于损失函数产生的后悔为 $ ilde {O}(T^{3/4})$，对于约束的违反是 $O (T^{7/8})$（忽略除了 $T$ 以外的所有量）。尤其地，这些边界适用于序列中的任何区间。我们还提出了一种更高效的算法，它仅需要对软约束进行一阶预言机访问，并在整个序列上获得类似的边界。我们将后者扩展到了强化学习的场景，并在期望上获得了类似的边界（作为 $T$ 的函数）。

Feb, 2024

在线凸优化的自适应边界优化

本文提出了一种新的在线凸优化算法，该算法根据迄今为止观察到的损失函数自适应地选择其正则化函数，其遗憾界是最坏情况下最优的，并且对于某些实际损失函数类别，它们比现有界限好得多。此算法不需要事先了解问题实例的结构，但提供了一定程度的竞争保证，并在范围内提供了一定程度的界限。

Feb, 2010

带长期约束的在线凸优化自适应算法

提出了一种适应性在线梯度下降算法，用于解决具有长期约束的在线凸优化问题，可以处理任意凸约束，该算法在损失和约束违规方面分别具有 O (T^max {β,1−β}) 和 O (T^(1−β/2)) 的累积遗憾界，优于 Mahdavi 等（2012 年）最好的已知累积遗憾界，该算法的性能已在实践中得到验证。

Dec, 2015