关于突发性和缓慢变化的多臂赌博问题
研究随机多臂老虎机问题的性质和限制,探讨具有在线探索特性的预测器的表现,其中简单后悔被评估,讨论简单后悔与累计后悔的关系,在有限臂数的情况下展示了一种性能下限和预测器的上限后悔,并针对连续老虎臂问题进行了研究。
Feb, 2008
提出了一种基于确定性探索和利用序列的 Multi-Armed Bandit (MAB) 问题求解方法,该方法能在轻尾分布下达到最优对数遗憾度,且在重尾分布下,若存在一阶到 p 阶矩,则达到 O(T^1/p) 的遗憾度,该方法在各种 MAB 变体问题中都有应用。
Jun, 2011
本文提出了基于 Implicit eXploration 的损失估计策略,可以在不需要不必要的探索成分的情况下,实现高概率遗憾界,取得了多臂赌博问题方面的改进结果。
Jun, 2015
本研究提出的隐私保护算法在解决随机多臂赌博机问题时,相比之前的成果取得了较大的进展.算法可以保证最优遗憾率O(Ɛ−1+logT),通过实验证实了理论界和实践界之间的一致性。
Nov, 2015
通过结合经典的UCB算法和简单的变化检测组件,我们提出了一种称为M-UCB的算法,可以在未知时间步骤中检测和适应变化,并在多臂赌博机问题中实现近乎最优的风险界。通过在公共数据集上进行数值实验,我们还展示了该算法的卓越性能。
Feb, 2018
本文探究了广义线性Bandits在非稳态环境中的应用,比如参数漂移等问题,提出了一种新增添的算法,基于动态问题的推断,解决了广义线性Bandits在非稳态环境下表现出的缺陷,拥有了更优秀的性能表现。通过对于动态问题投影过程的修改,我们设计出了一种具有结构性特点的算法。经过实验证明,我们的算法达到了更好的性能表现。
Mar, 2021
本文提出了一种新的算法 Discounted Thompson Sampling (DS-TS) with Gaussian priors,用于解决非平稳多臂赌博机问题,并分析了算法在不同情况下的表现和 upper bound of regret。
May, 2023
设计一种不使用奖励分布信息的多臂赌博机算法,通过交替应用贪婪规则与强制探索来实现显著的后悔上界,并提供不同强制探索策略下的问题依赖性后悔上界分析方法,适用于不同奖励分布的固定和分段固定设置。
Dec, 2023
通过利用奖励分布的方差和总变化预算,我们提出了Restarted WeightedOFUL+和Restarted SAVE+两种新算法,它们在非平稳随机线性赌博机问题中能够取得更紧密的遗憾上界,尤其在奖励的总方差远小于轮数K时,超过了现有工作的性能。
Mar, 2024
为具有非平稳奖励分布的多臂赌博问题研究激励探索,其中玩家探索贪心选择以外的臂部时获得补偿,并可能对奖励提供偏差反馈。我们考虑两种不同的非平稳环境:突变和连续变化,并提出相应的激励探索算法。我们表明,所提出的算法在时间上实现了亚线性的遗憾和补偿,从而在非平稳和偏倚或漂移反馈的情况下有效激励探索。
Mar, 2024