驯服一群强盗算法

Dec, 2016

Corralling a Band of Bandit Algorithms

Alekh Agarwal, Haipeng Luo, Behnam Neyshabur, Robert E. Schapire

TL;DR通过结合多个赌博机算法，创建一个主算法，它可以像单独运行的最优基础算法一样表现优秀。本文通过 Online Mirror Descent 和学习率算法，实现了更好地权衡探索和利用基础算法，达到了更好的拒绝界。这些结果可以应用于多种情况，如多臂赌博机、上下文赌博机和凸赌博机，并且提出了两种主要应用：第一种是在环境相对容易时，同时享有最坏情况的稳健性和最好的表现，第二种是在不同的先验参数或不同的损失结构下同时工作。

Abstract

We study the problem of combining multiple bandit algorithms (that is, online learning algorithms with partial feedback) with the goal of creating a master algorithm that performs almost as well as the best base algorithm if it were to be run on its own. The main challenge is that when

bandit algorithms online learning regret bounds robustness multi-armed bandits

发现论文，激发创造

更多适应性算法用于对抗式赌博机

提出了一种新颖的算法，采用乐观性和适应性技术，结合在线镜像下降框架和特殊的对数障碍正则化器来解决对抗性多臂赌博机问题和组合半赌博问题，并在提高先前工作的同时，取得了多种新的数据依赖性遗憾界。

Jan, 2018

元学习对抗强盗算法

该论文研究了具有 bandit feedback 的在线元学习，目的是通过某种自然的相似性度量改善类似的多个任务的性能。

Jul, 2023

元学习对抗性赌博机

本文研究了跨多任务的在线学习问题，设计了一个统一的元算法，旨在优化平均性能。该算法在多臂老虎机和乐观线性优化两个重要情境下提供了特定保证，通过任务平均后悔的降低来提高性能。

May, 2022

随机赌博算法的约束

研究如何将多种随机赌博算法结合起来，设计一个与最优算法相比表现几乎相同的聚拢算法，证明该算法的遗憾不劣于包含最高奖励臂的最佳算法，并且取决于最高奖励与其他奖励之间的差距，提出了两种通用算法并证明其从优惠的遗憾保证中受益。

Jun, 2020

一种广义的在线镜像下降算法及其在分类和回归中的应用

本文提供了一种新的方法，将在线预测算法在线镜像下降推广到具有通用更新的时间变化正则化器，并演示了该方法的强大功能。

Apr, 2013

适应离线算法来解决带有固定反馈的组合多臂赌博问题的框架

该研究针对随机、组合式多臂老虎机问题，提出了一种将离线算法转化为基于有限老虎机反馈的子线性 α 遗憾策略的框架，并将其应用于离散优化问题中的基数问题和背包约束问题中获得了良好的表现。

Jan, 2023

分布式镜面下降算法用于在线复合优化

本文提出了基于近似镜像下降的一类在线分布式优化算法，以 Bregman 距离为测量函数，包括欧几里得距离作为特例，考虑两种标准信息反馈模型，并通过在线分布式正则化线性回归问题的仿真结果验证了算法的性能。

Apr, 2020

医生对口罩使用的结论：有用但需辩证看待

本研究提出了一种广义的最好结果算法以及如何通过规范化导向跟随和在线镜像下降算法实现在线学习中的最好结果，将这种算法应用于上下文、图和表马尔科夫决策过程中。

Feb, 2023

广义形式博弈中的本地化和自适应镜像下降

我们研究了如何在带有轨迹反馈的零和不完全信息博弈中学习 ε- 最优策略，通过应用自适应在线镜像下降算法，在信息集中使用逐渐减小的学习率和正则化损失，我们证明了该方法在高概率下能够保证收敛速度为～T^(-1/2)，并且在理论上的最佳学习率和采样策略选择时，对于游戏参数的依赖性接近最优。为了实现这些结果，我们扩展了对 OMD 稳定性的概念，允许随时间变化的凸增量正则化。

Sep, 2023

联邦在线与强盗凸优化

我们研究了面对自适应对手时的分布式在线和掷骰机凸优化问题。我们旨在在 $M$ 个并行工作的机器上通过 $T$ 轮和 $R$ 次间歇通信来最小化平均遗憾。在假设底层成本函数是凸函数并且可以自适应生成的情况下，我们的研究结果表明，在机器能够访问所查询点的一阶梯度信息时，合作是没有益处的。这与对于随机函数的情况形成了对比，其中每台机器从固定分布中抽样成本函数。此外，我们深入研究了带有掷骰机（零阶）反馈的联邦在线优化更具挑战性的情况，在该情况下，机器只能访问所查询点的成本函数值。这里的关键发现是确定合作有益且甚至可能导致机器数量的线性加速的高维度情况。我们通过开发新的分布式单点和双点反馈算法，进一步说明了我们的研究结果在联邦对抗线性掷骰机中的应用。我们的工作是对限制反馈的联邦在线优化的系统理解的首次尝试，并在间歇通信情况下获得了一阶和零阶反馈的严格遗憾界。因此，我们的研究填补了联邦在线优化中随机和自适应环境之间的差距。

Nov, 2023