Dec, 2020

结合随机赌博机的上置信界

TL;DR提出一种基于元-UCB算法的简单方法,用于组合随机赌博算法,提高在劣势环境下的表现,实验结果表明算法可以在多种场景下取得与下界一致的效果,已验证线性赌博和模型选择问题的有效性。