Oct, 2023

多臂赌博机的固定预算真值组合纯探索

TL;DR在固定预算环境下,我们研究了多臂赌博机的实值组合纯探索问题。我们提出了Combinatorial Successive Asign(CSA)算法,该算法可以在动作类别的大小与臂的数量成指数关系时,找到最佳动作。我们证明了CSA算法的错误概率上界与下界在指数的对数因子上匹配。然后,对于动作类别大小为多项式的情况,我们引入了另一个算法Minimax Combinatorial Successive Accepts and Rejects(Minimax-CombSAR),并证明该算法是最优的,与一个下界相匹配。最后,我们通过与先前方法的实验比较,证明了我们的算法表现更好。