超过最坏情况的无限多臂武装匪徒的腐烂问题：自适应方法

Apr, 2024

超过最坏情况的无限多臂武装匪徒的腐烂问题：自适应方法

Rotting Infinitely Many-armed Bandits beyond the Worst-case Rotting: An Adaptive Approach

Jung-hun Kim, Milan Vojnovic, Se-Young Yun

TL;DR在本研究中，我们考虑了在腐败环境中的无限多臂赌博问题，其中每个臂的平均奖励可能会在每次拉动后减少，而其他情况下保持不变。我们探讨了两种场景，捕捉到关于奖励衰减的问题相关特征：一个情景中腐败的累积量受到 $V_T$ 的限制，称为缓慢衰败的场景，另一个情景中腐败次数受到 $S_T$ 的限制，称为突然衰败的场景。为了应对腐败奖励带来的挑战，我们引入了一种算法，利用自适应滑动窗口的 UCB，旨在管理由于腐败奖励引起的偏差和方差权衡。我们提出的算法对于缓慢衰败和突然衰败的场景都取得了较紧的遗憾界。最后，我们使用合成数据集演示了我们算法的性能。

Abstract

In this study, we consider the infinitely many armed bandit problems in rotting environments, where the mean reward of an arm may decrease with each pull, while otherwise, it remains unchanged. We explore two sce

infinitely many armed bandit problems rotting environments ucb adaptive sliding window regret bounds

发现论文，激发创造

腐烂强盗并不比随机强盗更难

本文研究了非参数腐败赌博机算法的问题，提出了一种基于增长窗口平均数的过滤算法 FEWA，用于识别在一次推动后更可能返回高回报的臂。证明了 FEWA 算法在不知道臂的下降行为的情况下，可以实现与扩展周期吻合的回归界限。通过仿真实验也证明了 FEWA 算法的理论改进。

Nov, 2018

腐败赌徒

本文探讨了多臂老虎机框架及其中的经典框架问题，引出了老化多臂老虎机框架，探讨了在该框架下的算法及理论保证，并提出了其在实际应用当中的意义。

Feb, 2017

阻断赌徒

考虑到重复使用某些选项可能是不可取的或不可行的，本文提出了一种新颖的随机多臂赌博机设置，并通过映射到 PINWHEEL 调度问题证明了问题的优化累积奖励不允许有伪多项式时间算法，但它设计了一种贪婪算法和一种基于 UCB 的算法，具有一定的优异性。

Jul, 2019

UCB 赌博机上的近最优对抗攻击

我们提出了一种新的攻击策略，在随机多臂赌博问题中，通过操纵 UCB 原则来引导其选择一些次优的目标臂，攻击成本的累计代价随轮数的增加而增长，上界与下界相差一个 loglogT 的因子，因此我们的攻击接近最优。

Aug, 2020

非平稳线性赌臂问题的简单解法

本文研究了非平稳线性臂问题，提出了一种基于重启策略的算法以平衡利用和探索，并证明了该算法的动态遗憾值，同时还解决了现有算法中的严重技术缺陷问题。

Mar, 2021

分散式随机多人多臂行走赌博机

提出了一种解决多人多臂赌博机问题的分布式算法，利用上置信区间和分布式优化技术，解决了现实世界应用中玩家仅能访问动态局部子集的问题，并获得了接近最优的后悔率。

Dec, 2022

奖励漂移下的多臂赌博机激励探索

本文研究了多臂赌博机问题中的激励探索方法，分析了偏差反馈对于 UCB 算法、E - 贪心算法以及汤普森抽样算法表现的影响。结果表明这些算法在偏差反馈下产生了 $log (T)$ 的遗憾和补偿，在激励探索方面是有效的。

Nov, 2019

序列多臂赌博机中的奖励样本传输

在该研究中，我们考虑了一个顺序随机多臂赌博问题，在多个回合中，代理与赌博机进行交互。臂的奖励分布在一个回合中保持不变，但在不同回合中可能发生变化。我们提出了一种基于 UCB 算法的方法，用于传输来自先前回合的奖励样本，并改善所有回合中的累积遗憾表现。我们对该算法进行了遗憾分析和实证结果，结果显示与无传输的标准 UCB 算法相比有明显的改进。

Mar, 2024

具有异构奖励的分散随机分布的多智能体多臂赌博机

研究了去中心化多智能体多臂赌博问题，使用随机图来优化整个系统的综合悔恨度，引入了新的算法框架，其中包含加权技巧和上置信边界方法，算法具有较好的鲁棒性，并且考虑了图随机性，同时给出了不同命题下的悔恨度的上限。

Jun, 2023

概率无界对抗下的稳健随机赌博算法

提出抵御恶意攻击的新型样本中位数算法和探索辅助上限置信区间算法，并通过多个仿真和实验表明它们能够在多臂赌博机问题中实现 sublinear regret。

Feb, 2020