阻断赌徒

Jul, 2019

Blocking Bandits

Soumya Basu, Rajat Sen, Sujay Sanghavi, Sanjay Shakkottai

TL;DR考虑到重复使用某些选项可能是不可取的或不可行的，本文提出了一种新颖的随机多臂赌博机设置，并通过映射到 PINWHEEL 调度问题证明了问题的优化累积奖励不允许有伪多项式时间算法，但它设计了一种贪婪算法和一种基于 UCB 的算法，具有一定的优异性。

Abstract

We consider a novel stochastic multi-armed bandit setting, where playing an arm makes it unavailable for a fixed number of time slots thereafter. This models situations where reusing an arm too often is undesirab

stochastic multi-armed bandit optimizing regret combinatorial semi-bandits

发现论文，激发创造

带有随机延迟的组合式封锁赌博机

本文考虑了带障碍的多臂赌博机问题中，包含组合优化的情况下解决局部最优策略的方法。我们扩展了现有模型，使得多个手臂可以按照可行性约束同时进行决策。本文提出了一种自然的贪心算法，并针对其在多种情况下的表现给出了严格的理论保证。

May, 2021

具有多次游戏和预算限制的多臂赌博机

研究多臂赌博问题下的多次试验和预算约束的拓展，提出上置信区间和 Exp3 算法的具体实现及其性能分析。

Nov, 2017

UCB 赌博机上的近最优对抗攻击

我们提出了一种新的攻击策略，在随机多臂赌博问题中，通过操纵 UCB 原则来引导其选择一些次优的目标臂，攻击成本的累计代价随轮数的增加而增长，上界与下界相差一个 loglogT 的因子，因此我们的攻击接近最优。

Aug, 2020

具有时延依赖收益的随机赌博机

提出了一个非平稳随机 bandit 模型及其评估算法，对比了该算法和 UCB 方法的优越性，从而能够有效地解决音乐推荐中的问题。

Oct, 2019

组合多臂老虎机及其对概率触发臂的扩展

该研究提出了一种通用的组合多臂赌博问题框架，将未知分布的基础臂组成超级臂进行玩耍，进一步探讨了更多可能基于已激发臂的结果触发概率的扩展，旨在通过在线学习算法实现最小化（α，β）- 逼近遗憾。

Jul, 2014

去中心化协作随机赌博机

本文研究了多臂赌博机问题在网络上的去中心化协作，采用加速一致性过程来计算所有智能体对每个臂的平均奖励，该算法采用上置信区间来决策，能够达到更好的回归界，同时不需要过多的底层网络信息。

Oct, 2018

线性参数化赌博机

本文研究基于多维随机向量臂收益的赌博机问题，证明了在解决特定问题时使用相应的相位策略可以达到最优的累计遗憾和贝叶斯风险，并提出了针对通用问题的近似最优解。

Dec, 2008

具有潜在随机源的相关多臂赌博机

该论文提出了一种新的多臂赌博机框架，在该框架下将 K-armed bandit 问题转化为 C+1-armed 问题。通过利用该框架下的广义上限置信区间算法可以降低算法的遗憾量，以实现一定的算法性能优势。

Aug, 2018

带有未知变量的组合网络优化：具有线性回报的多臂赌博机

本文提出了一种适用于多臂赌博机问题的解决方案，只需要以线性时间复杂度存储未知参数，可以处理一般的掌握参数相关性的问题，并用于对网络中的最大权匹配、最短路径及最小生成树计算问题的解决。

Nov, 2010

具有异构奖励的分散随机分布的多智能体多臂赌博机

研究了去中心化多智能体多臂赌博问题，使用随机图来优化整个系统的综合悔恨度，引入了新的算法框架，其中包含加权技巧和上置信边界方法，算法具有较好的鲁棒性，并且考虑了图随机性，同时给出了不同命题下的悔恨度的上限。

Jun, 2023