Nov, 2020

Restless-UCB,在线不安定赌博机的高效低复杂度算法

TL;DR提出了一种名为 Restless-UCB 的在线学习策略来解决在线探索期望最大化问题,在 Restless-UCB 中,利用前期的探索来做出更好地决策,证明了期望最大化问题在合理的标准下得到了可行的上界,相较于现有算法,使用一种新的对于状态转移进行利用的方法来消除在泊松极限中出现的指数因子,同时也能用于优化现有算法。