Nov, 2024
针对总奖励、最大奖励等的上置信界政策统一理论
Unified theory of upper confidence bound policies for bandit problems
targeting total reward, maximal reward, and more
TL;DR本研究解决了经典总奖励带区问题和最大带区问题中的顺序最优性缺乏明确性的研究空白。我们提出了一种统一的理论框架,通过引入最佳臂的oracle量并定义上置信界政策,从而实现在不同设置下的顺序最优性分析。我们的研究表明,随着试验次数的增加,oracle量的置信区间必须适当收敛,以确保UCB政策的顺序最优性,这对新的带区问题和顺序最优的UCB算法的系统推导提供了基础。