May, 2016

探索然后执行策略

TL;DR研究用高斯奖励两臂赌博问题中最小化后悔的方法。发现基于探索阶段(直到停止时间)和利用阶段的策略必然是次优的,同时提供了一种成本和时间都是优的全序列策略。