Aug, 2019

安全约束下的线性随机赌博机

TL;DR本文提出了一种基于UCB策略的新算法Safe-LUCB,用于解决多臂赌博问题中考虑安全限制的约束,该算法具有探索和利用两个阶段,并控制遗憾值增长,提供了一般遗憾上界及与最佳行动位置有关的问题相关遗憾上界。