廉价强盗

ICMLJun, 2015

Cheap Bandits

Manjesh Kumar Hanawal, Venkatesh Saligrama, Michal Valko, R\' emi Munos

TL;DR本文提出了 CheapUCB 算法，该算法用于最大化学习的累积奖励，同时保证感知成本最小。此外，作者还就一类有效维度为 d 的图谱建立了一个渐进的下界，即谱臂老虎机的累积遗憾为 Ω(T sqrt d)。

Abstract

We consider stochastic sequential learning problems where the learner can observe the \textit{average reward of several actions}. Such a setting is interesting in many applications involving monitoring and survei

stochastic sequential learning average reward sensing cost cheapucb algorithm regret guarantees

发现论文，激发创造

去中心化协作随机赌博机

本文研究了多臂赌博机问题在网络上的去中心化协作，采用加速一致性过程来计算所有智能体对每个臂的平均奖励，该算法采用上置信区间来决策，能够达到更好的回归界，同时不需要过多的底层网络信息。

Oct, 2018

合作多智体图形赌博机：UCB 算法和遗憾分析

在这篇论文中，我们将多智能体图赌博问题定义为由 Zhang、Johansson 和 Li [CISS 57，1-6（2023）] 引入的图赌博问题的多智能体扩展。我们提出了一种基于上限置信界（UCB）的学习算法 Multi-G-UCB，并证明其在 T 步内的期望遗憾通过 O (Nlog (T)[sqrt (KT) + DK]) 被界定，其中 D 是图 G 的直径。最后，我们通过与其他方法的比较对算法进行了数值测试。

Jan, 2024

基于图的赌博机学习

本论文研究了一种称为图赌博机的多臂赌博机扩展问题，提出了一种能够利用乐观原则平衡长期探索与开发的学习算法 G-UCB，并证明其能够达到理论最优的遗憾界，数值实验结果表明该算法优于其他基准算法。

Sep, 2022

具有习惯化和恢复动态的非静态赌徒问题

提出了 ROGUE（Reducing or Gaining Unknown Efficacy）类模型及其算法 ROGUE-UCB，可捕捉到具有非稳态现象的问题模型，经实验证明优于现有算法并应用于个性化医疗干预以增加身体活动。

Jul, 2017

阻断赌徒

考虑到重复使用某些选项可能是不可取的或不可行的，本文提出了一种新颖的随机多臂赌博机设置，并通过映射到 PINWHEEL 调度问题证明了问题的优化累积奖励不允许有伪多项式时间算法，但它设计了一种贪婪算法和一种基于 UCB 的算法，具有一定的优异性。

Jul, 2019

UCB 赌博机上的近最优对抗攻击

我们提出了一种新的攻击策略，在随机多臂赌博问题中，通过操纵 UCB 原则来引导其选择一些次优的目标臂，攻击成本的累计代价随轮数的增加而增长，上界与下界相差一个 loglogT 的因子，因此我们的攻击接近最优。

Aug, 2020

非平稳赌博机问题的置信上限策略

本文考虑了分布保持不变，但在未知时间发生改变的非稳态赌徒问题，研究了两种算法：折扣上限置信区间和滑动窗口上限置信区间，并通过 Hoeffding 不等式得到了后者的上界，对不优的赌博机被玩的次数期望进行了上界估计并证明了存在性突然性改变时的遗憾下界，证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。

May, 2008

基于数据驱动的上界置信度在重尾赌博机上的近优遗憾

本文提出了一种分布无关、数据驱动的上置信界（UCB）算法，结合最近发展的重新抽样中位数法（RMM）方法，对称奖励分布的研究中生成近乎最优的后悔边界，即使是重尾分布。

Jun, 2024

成本感知级联赌博算法

本文提出了一种成本感知的级联赌博模型，研究其应用在在线和离线环境下的表现，并介绍了一种新的成本感知级联上置信区间算法以解决在线环境下的问题。

May, 2018

组合级联赌博机

提出了组合级联赌博算法，对分布随机的约束问题解决一类非线性奖励函数部分可观测性问题，提供了一种基于 UCB 算法的求解方法，并论证了与时间复杂度无关的期望损失界限和时间关联的损失上限。在两个真实世界的网络路径问题测试中，算法表现良好，说明该算法对于模型假设违反的情况同样稳健有效，这个设置还需要提出新的学习算法。

Jul, 2015