Jun, 2023

线性约束下的纯探索赌博机问题

TL;DR本文提出了两种渐近最优的算法,基于 Track-and-Stop 方法和博弈论方法,用于寻找多臂赌博机环境中具有一定置信度的最优策略,特别考虑了带有线性约束的情况,并探讨了约束难度对问题的影响。