单次遍历流式多臂赌博机的严格遗憾界
在 $P$ 次流式模型中研究随机多臂赌博机问题,通过设计一种算法,给出了关于 $m,n$ 和 $P$ 的最优遗憾度量的完整刻画,同时提出了一个上界和下界,结果在 $n$ 和 $P$ 方面具有紧密性。
May, 2024
我们使用广义版本的 EXP3、EXP3-IX 和 FTRL 与 Tsallis 熵直接最小化每次行动的遗憾,从而获得了接近最优的 $ O (√{TAlnK})$ 和 $ O (√{T√{AK}})$ 的界限,并将我们的结果推广到了从睡眠专家那里寻求建议的强盗情境,从而得到了一些现有自适应和跟踪遗憾上限的新证明,并通过推广我们的结果到专家报告信心的强盗版本,得到了主要依赖于专家信心之和的置信遗憾上限。
Mar, 2024
本文提出了一种在随机模型下割臀膜机制下的多臂老虎机问题的差分隐私算法,其分别对应具体分布相关和分布无关两种后悔下界,并给出最优算法上界和良好的本地模型表现。
Jun, 2021
在多臂赌博机领域,多智能体多臂赌博机方法已经受到了广泛关注,但对应的遗憾下界的研究相对较少。本文在不同情景下首次全面研究了遗憾下界,并证明了它们的紧密性。当图表现出良好的连通性和奖励是随机分布时,我们证明了实例相关上界的 O(log T)下界和平均差值独立上界的 sqrt(T)下界。在对抗奖励的假设下,我们建立了连接图的 O(T^(2/3))下界,从而弥合了以前工作中下界与上界之间的差距。当图表现为不连通时,我们还展示了线性的遗憾下界。与以前的研究相比,本文全面研究了这些情景下的紧密下界。
Aug, 2023
本文提出了一种忽略一定程度下最优性差距的 Bandit 算法,并以其为基础,设计优化算法 Thompson Sampling (ε-TS)。研究结果表明,该算法能够在一定程度上避免过度探索问题,并在保证性能的前提下,提高计算效率。
Aug, 2020
本文提出了基于 Implicit eXploration 的损失估计策略,可以在不需要不必要的探索成分的情况下,实现高概率遗憾界,取得了多臂赌博问题方面的改进结果。
Jun, 2015
研究了多精度多臂赌博机(MF-MAB)及其最优臂识别和后悔最小化目标,为 BAI 提出了成本复杂度下限,推荐两种替代忠诚度选择程序的算法框架,并确定了两种程序的成本复杂度上限,并提出了新的后悔定义,以及解决了该问题的消除算法。
Jun, 2023