Oct, 2023

最佳挑战规则下的贝叶斯臂选择中的汤姆森探索

TL;DR该论文研究了在集中置信度下的最佳臂识别问题,提出了一种结合汤普森采样和最佳挑战者规则的策略,在样本复杂度较低的情况下取得了近乎最优的性能。