Jun, 2017

延迟转化的随机强化学习赌博机模型

TL;DR这篇文章提出并研究了一种基于 Chapelle 的框架的新的随机多臂赌博模型,其中每种操作可能会触发一个将以随机延迟发生的未来奖励,并提供了一些性能下界和基于 UCB 和 KLUCB 框架的两个简单而有效的算法。