适应离线算法来解决带有固定反馈的组合多臂赌博问题的框架

Jan, 2023

适应离线算法来解决带有固定反馈的组合多臂赌博问题的框架

A Framework for Adapting Offline Algorithms to Solve Combinatorial Multi-Armed Bandit Problems with Bandit Feedback

Guanyu Nie, Yididiya Y Nadew, Yanhui Zhu, Vaneet Aggarwal, Christopher John Quinn

TL;DR该研究针对随机、组合式多臂老虎机问题，提出了一种将离线算法转化为基于有限老虎机反馈的子线性 α 遗憾策略的框架，并将其应用于离散优化问题中的基数问题和背包约束问题中获得了良好的表现。

Abstract

We investigate the problem of stochastic, combinatorial multi-armed bandits where the learner only has access to bandit feedback and the r

stochastic multi-armed bandits bandit feedback sublinear alpha-regret knapsack constraints

发现论文，激发创造

联邦组合多智能体多臂赌博机

该论文介绍了一个用于在线组合优化和有限带反馈的联邦学习框架，该框架将任何具有复杂度为 O (psi/epsilon^beta)（其中省略了对数计算，psi 是一个函数，beta 是常数）的离线单代理（alpha-epsilon）逼近算法转化为具有 m 个通信代理和 alpha 遗憾度的在线多代理算法，并保证了与时间跨度 T 的次线性增长，且随着通信代理数量的增加而线性加速。此外，该算法还具有高效的通信特性，只需要亚线性数量的通信轮次，通过将该框架成功应用于在线随机子模块最大化，并实现了第一个单代理和多代理设置的结果，以及恢复了专门的单代理理论保证。我们还通过对随机数据摘要问题的实证验证来展示所提出的框架的有效性，即使在单代理场景中也是如此。

May, 2024

更多适应性算法用于对抗式赌博机

提出了一种新颖的算法，采用乐观性和适应性技术，结合在线镜像下降框架和特殊的对数障碍正则化器来解决对抗性多臂赌博机问题和组合半赌博问题，并在提高先前工作的同时，取得了多种新的数据依赖性遗憾界。

Jan, 2018

复合和匿名反馈多臂赌博机的自适应算法

本文研究使用复合和匿名反馈的多臂老虎机问题，提出适应性算法，解决了没有先验关于奖励间隔大小的信息的问题，并且进行了基于真实数据集的模拟实验，结果表明我们的算法胜过现有的基准算法。

Dec, 2020

组合多臂老虎机及其对概率触发臂的扩展

该研究提出了一种通用的组合多臂赌博问题框架，将未知分布的基础臂组成超级臂进行玩耍，进一步探讨了更多可能基于已激发臂的结果触发概率的扩展，旨在通过在线学习算法实现最小化（α，β）- 逼近遗憾。

Jul, 2014

具有一般奖励函数的组合多臂赌博机

本文研究了随机组合多臂赌博机框架，提出了一种名为 SDCB 的新算法，该算法估计底层随机变量的分布和它们的随机显著性置信区间，并证明了 SDCB 可以实现 O (logT) 的分布相关遗憾和 $ ilde {O}(√T)$ 的分布无关遗憾，并将所得结果应用于 $K$-MAX 问题。

Oct, 2016

组合赌博机再审

本文研究了随机和对抗性组合多臂赌博问题。在随机情况下，我们提出了一种特定问题的遗憾下限，并讨论了其与决策空间维数的比例关系。我们提出了 ESCB 算法，该算法能有效地利用问题的结构，并对其遗憾进行了有限时间分析。ESCB 具有比现有算法更好的性能保证，并在实践中显着优于这些算法。在对抗性情况下，我们提出了 CombEXP 算法，其遗憾比比现有最先进算法相同，但对于某些组合问题具有较低的计算复杂度。

Feb, 2015

离散选择多臂赌博机

通过建立离散选择模型与在线学习和多臂赌博算法领域之间的联系，本文的两个主要贡献是提供了一类算法的次线性遗憾界，包括 Exp3 算法作为特例，并引入了一类新的对抗多臂赌博算法，借鉴了 Wen (2001) 首次提出的广义嵌套逻辑模型，这些算法能够通过封闭形式的采样分布概率实现高度的模型调优灵活性。为了演示我们算法的实际实施，我们进行了数值实验，重点关注随机赌博的情况。

Oct, 2023

对抗性多臂老虎机中的延迟和数据的适应

本文考虑在延迟反馈下的敌对多臂老虎机问题，并分析了一些通过仅使用决策时可用的信息 (关于损失和延迟) 来调整步长的 Exp3 算法变体，从而获得适应观察到的 (而不是最坏情况下的) 延迟和 / 或损失序列的遗憾保证。最后，我们介绍了 AdaGrad 风格的版本的算法，该算法通过观察到的 (延迟的) 损失进行适应，而不仅仅是适应于累积延迟 (该算法要求先验上限）。

Oct, 2020

带背包的赌博机

介绍了一种称为带背包的赌徒问题的通用模型，结合了随机整数规划和在线学习的方面。该论文提出了两种算法来解决这个问题，它们的报酬接近于信息论上的最优解，但同时带背包的赌徒问题相比传统的赌徒问题更具挑战性。

May, 2013

最大价值 - 指数反馈下的组合赌博机最大价值奖励函数

研究了在最大价值和指标反馈下的组合多臂赌博问题，并提出一种算法来保证概率有限支持中随机手臂结果的遗憾。

May, 2023