关于突发性和缓慢变化的多臂赌博问题

Feb, 2018

关于突发性和缓慢变化的多臂赌博问题

On Abruptly-Changing and Slowly-Varying Multiarmed Bandit Problems

Lai Wei, Vaibhav Srivastava

TL;DRLM-DSEE与SW-UCB#两种算法解决了非稳态随机多臂赌博问题，在突变和缓慢变化的环境下，这些算法在时间上的预期总遗憾被控制在时间的子线性函数上。

Abstract

We study the non-stationary stochastic multiarmed bandit (MAB) problem and propose two generic algorithms, namely, the limited memory dete

发现论文，激发创造

多臂赌博问题的纯探索

研究随机多臂老虎机问题的性质和限制，探讨具有在线探索特性的预测器的表现，其中简单后悔被评估，讨论简单后悔与累计后悔的关系，在有限臂数的情况下展示了一种性能下限和预测器的上限后悔，并针对连续老虎臂问题进行了研究。

Feb, 2008

多臂赌博机问题的探索和利用的确定性序列

提出了一种基于确定性探索和利用序列的 Multi-Armed Bandit (MAB) 问题求解方法，该方法能在轻尾分布下达到最优对数遗憾度，且在重尾分布下，若存在一阶到 p 阶矩，则达到 O(T^1/p) 的遗憾度，该方法在各种 MAB 变体问题中都有应用。

Jun, 2011

探索不再：非随机赌博机的改进高概率遗憾界限

本文提出了基于 Implicit eXploration 的损失估计策略，可以在不需要不必要的探索成分的情况下，实现高概率遗憾界，取得了多臂赌博问题方面的改进结果。

Jun, 2015

差分隐私多臂赌博机算法

本研究提出的隐私保护算法在解决随机多臂赌博机问题时,相比之前的成果取得了较大的进展.算法可以保证最优遗憾率O(Ɛ−1+logT),通过实验证实了理论界和实践界之间的一致性。

Nov, 2015

针对分段平稳赌博机的变化检测近乎最优自适应程序

通过结合经典的UCB算法和简单的变化检测组件，我们提出了一种称为M-UCB的算法，可以在未知时间步骤中检测和适应变化，并在多臂赌博机问题中实现近乎最优的风险界。通过在公共数据集上进行数值实验，我们还展示了该算法的卓越性能。

Feb, 2018

广义线性赌臂机在参数漂移下的遗憾界

本文探究了广义线性Bandits在非稳态环境中的应用，比如参数漂移等问题，提出了一种新增添的算法，基于动态问题的推断，解决了广义线性Bandits在非稳态环境下表现出的缺陷，拥有了更优秀的性能表现。通过对于动态问题投影过程的修改，我们设计出了一种具有结构性特点的算法。经过实验证明，我们的算法达到了更好的性能表现。

Mar, 2021

非静态贪婪问题的折扣汤普森采样

本文提出了一种新的算法 Discounted Thompson Sampling (DS-TS) with Gaussian priors，用于解决非平稳多臂赌博机问题，并分析了算法在不同情况下的表现和 upper bound of regret。

May, 2023

强制性探索在赌博问题中的应用

设计一种不使用奖励分布信息的多臂赌博机算法，通过交替应用贪婪规则与强制探索来实现显著的后悔上界，并提供不同强制探索策略下的问题依赖性后悔上界分析方法，适用于不同奖励分布的固定和分段固定设置。

Dec, 2023

非平稳线性赌博机的方差依赖遗憾界

通过利用奖励分布的方差和总变化预算，我们提出了Restarted WeightedOFUL+和Restarted SAVE+两种新算法，它们在非平稳随机线性赌博机问题中能够取得更紧密的遗憾上界，尤其在奖励的总方差远小于轮数K时，超过了现有工作的性能。

Mar, 2024

奖励驱动的非平稳随机赌博机的探索

为具有非平稳奖励分布的多臂赌博问题研究激励探索，其中玩家探索贪心选择以外的臂部时获得补偿，并可能对奖励提供偏差反馈。我们考虑两种不同的非平稳环境：突变和连续变化，并提出相应的激励探索算法。我们表明，所提出的算法在时间上实现了亚线性的遗憾和补偿，从而在非平稳和偏倚或漂移反馈的情况下有效激励探索。

Mar, 2024