Nov, 2018

垃圾进去,奖励出来:多臂赌博机中探索的自举方法

TL;DR本文提出一种基于非参数bootstrap和伪奖励的乐观探索策略Giro,通过对探索历史进行随机化以探索未知的领域,该方法不仅在Bernoulli Bandit问题上表现良好,在结构化问题上也可以得到广泛的应用。