具有时延依赖收益的随机赌博机
考虑到重复使用某些选项可能是不可取的或不可行的,本文提出了一种新颖的随机多臂赌博机设置,并通过映射到 PINWHEEL 调度问题证明了问题的优化累积奖励不允许有伪多项式时间算法,但它设计了一种贪婪算法和一种基于 UCB 的算法,具有一定的优异性。
Jul, 2019
本文研究随机延迟赌博机问题,提出了一种基于 UCB 算法的简单但高效的算法 ——PatientBandits,通过针对延迟赋予限制的方法,得出不同类型问题的效果下限和上限。
Jun, 2020
考虑带 Markov 奖励的经典多臂赌博机问题,玩一只手臂时,其状态会按 Markov 方式更改,不玩时保持冻结。玩一只手臂时,玩家会获得与状态相关的奖励,每只手臂的状态转移概率未知。我们证明在手臂的状态转移概率满足一定条件下,基于样本均值的指数策略能够在总试验次数上实现对数遗憾,同时也证明了在具有休息的 Markov 赌博机模型下,样本均值指数策略不会降低最优性。此外,对比 Anantharam 的指数策略和 UCB,我们发现通过选择一个小的探索参数 UCB 可以比 Anantharam 的指数策略拥有更小的遗憾。
Jul, 2010
本文研究了多臂赌博机问题在网络上的去中心化协作,采用加速一致性过程来计算所有智能体对每个臂的平均奖励,该算法采用上置信区间来决策,能够达到更好的回归界,同时不需要过多的底层网络信息。
Oct, 2018
研究了在自利的情况下,三种常见的赌博算法 UCB, ε-Greedy 和 Thompson Sampling 对策略行为的适应性,为应用于经济学中的推荐系统提供了鲁棒的工具。
Jun, 2019
本文考虑了带障碍的多臂赌博机问题中,包含组合优化的情况下解决局部最优策略的方法。我们扩展了现有模型,使得多个手臂可以按照可行性约束同时进行决策。本文提出了一种自然的贪心算法,并针对其在多种情况下的表现给出了严格的理论保证。
May, 2021
研究了在高度非静态环境中的情境赌博问题,提出了一种高效的自适应学习算法,并提供了理论上的遗憾分析来证明在时间长度 $T$ 的情况下,实现了遗憾的亚线性缩放。此外,将该算法扩展到混合收益的更一般情况下,并进行了实证实验,证明了该算法在两种设置下对基线算法的优势。
Feb, 2020
我们考虑具有非平稳收益的随机多臂赌博问题,提出了一个称为潜在 AR 赌博的新环境,在这个环境中,臂的平均收益随时间变化是由未知的、潜在的、自回归(AR)阶数为 k 的状态引起的。针对已知的 AR 阶数 k,我们提出了一个算法,在这种情况下实现了 O (k√T) 的遗憾。在多个非平稳环境中,我们的算法在实证上优于标准 UCB,即使 k 被错误估计。
Feb, 2024
本文研究应用于在线决策中的两臂赌博机问题,其中臂的平均奖励是绝对阶数小于等于 β 的 Hölder 函数。我们展示了该问题平滑和非平滑情况的首个分离,提出了一种策略以 T^(3/5)遗憾为代价。同时,我们为任何整数 β≥1 证明了一个 T^(β+1)/2β+1 的下限,与 β=2 的上限相匹配。
Jan, 2023