Aug, 2023

用于多臂赌博机的实值组合纯探索的汤普森抽样

TL;DR我们研究了多臂赌博机问题的实值组合纯探索(R-CPE-MAB)问题。我们引入了一种名为广义汤普森采样探索(GenTS-Explore)算法,它是第一个能够在动作集的大小指数级增长时仍然有效的算法。我们还引入了一个新颖的问题相关样本复杂性下界,并证明GenTS-Explore算法实现了最优的样本复杂性,仅存在一个与问题相关的常数因子。