波段凸优化

Feb, 2024

Bandit Convex Optimisation

Tor Lattimore

TL;DR带限界凸优化是研究零阶凸优化的基本框架。这篇论文涵盖了解决此问题的许多工具，包括切平面法、内点法、连续指数权重、梯度下降和在线牛顿步。解释了许多假设和设置之间的细微差别。虽然没有太多真正新颖的东西，但一些现有工具以新颖的方式应用，得到了新的算法。一些边界有些改进。

Abstract

bandit convex optimisation is a fundamental framework for studying zeroth-order convex optimisation. These notes cover the many tools used for this problem, including →

bandit convex optimisation zeroth-order convex optimisation cutting plane methods interior point methods gradient descent

发现论文，激发创造

约束线性赌臂问题的凸方法

近年来，与人类不断互动的现实世界安全关键系统中的强盗优化引起了极大关注。本文提出了一个综合性研究，重点研究了安全线性强盗算法的计算方面，通过引入凸规划工具创建了计算效率高的策略。具体而言，我们首先对安全线性强盗问题的最优策略进行了特征化，并提出了一个仅涉及求解凸问题的端到端安全线性强盗算法流程。我们还对我们提出的方法的性能进行了数值评估。

Nov, 2023

在线牛顿方法在博弈凸优化问题中的应用

零阶强化学习的计算方法在对抗性和随机性设置中的性能界限及其与维度的关系

Jun, 2024

带两点反馈的赌博机和零阶凸优化的最优算法

本文介绍了一种基于梯度估计器的简单算法，可以在 convex Lipschitz 函数方面实现带有两个反馈信息的 bandit convex optimization 和带有两个函数评估的 zero-order stochastic convex optimization 问题的最优解，同时在比之前的算法更加简单的前提下可以扩展到非欧几里得问题。

Jul, 2015

风险规避的随机凸臂老虎机

本文研究了在线凸优化的问题，在该问题中，决策者是风险规避的。我们提供了两个算法来解决这个问题。第一个是降落算法，易于实现。第二个算法结合了椭圆体方法和中心点装置，对于回合数实现了（几乎）最优的后悔界限。据我们所知，这是在在线凸博弈问题中首次尝试解决风险规避问题。

Oct, 2018

赌博机凸优化问题的最优算法

本文针对带有随机反馈的在线凸优化问题（称为 bandit convex optimization），通过将椭球法应用于在线学习，给出了第一个 $\tilde {O}(\sqrt {T})$-regret 算法，并引入了离散凸几何中的新工具。

Mar, 2016

联邦在线与强盗凸优化

我们研究了面对自适应对手时的分布式在线和掷骰机凸优化问题。我们旨在在 $M$ 个并行工作的机器上通过 $T$ 轮和 $R$ 次间歇通信来最小化平均遗憾。在假设底层成本函数是凸函数并且可以自适应生成的情况下，我们的研究结果表明，在机器能够访问所查询点的一阶梯度信息时，合作是没有益处的。这与对于随机函数的情况形成了对比，其中每台机器从固定分布中抽样成本函数。此外，我们深入研究了带有掷骰机（零阶）反馈的联邦在线优化更具挑战性的情况，在该情况下，机器只能访问所查询点的成本函数值。这里的关键发现是确定合作有益且甚至可能导致机器数量的线性加速的高维度情况。我们通过开发新的分布式单点和双点反馈算法，进一步说明了我们的研究结果在联邦对抗线性掷骰机中的应用。我们的工作是对限制反馈的联邦在线优化的系统理解的首次尝试，并在间歇通信情况下获得了一阶和零阶反馈的严格遗憾界。因此，我们的研究填补了联邦在线优化中随机和自适应环境之间的差距。

Nov, 2023

基于贝叶斯推断的网上凸优化：无梯度的梯度下降

本文研究在线凸优化和赌博臂问题中的梯度近似算法，利用在单个随机点上估算的梯度实现在无法完全了解函数信息时的最优决策选择和回报最小化。

Aug, 2004

基于 Bandit 凸优化的可扩展和动态 IoT 管理

针对在线凸优化中的时间变化的损失函数和约束条件进行分析，提出了一种 bandit online saddle-point（BanSaP）算法，该算法可适应不断变化的损失函数和环境，同时进行优化，在雾计算下的实验表明相对于已有的基于梯度反馈的算法，提出的方法提供了竞争性的性能。

Jul, 2017

非凸赌臂优化的最优梯度算法

本文研究非凸奖励的赌博机问题，提出了一种适用于一类具有非凸奖励函数的赌博机算法，通过统一的零阶优化范式达到了多项式设置下的最优速率，并在生成模型的 RL 中实现了算法的应用，从而取得了比之前方法更好的样本复杂度。

Jul, 2021

无投影随机凸优化

该论文提出了第一个计算有效的基于投影的算法来解决 Bandit 凸优化问题，并以各种问题（包括二次规划、组合优化和矩阵完成问题）上的实验结果证明了其性能。

May, 2018