Apr, 2020

基于Whittle指数的平均奖励不安匪徒问题的Q学习

TL;DR引入一种新的增强学习算法,利用Q-learning和Whittle指数的范例来解决平均奖励下的多臂赌博机问题。具体而言,利用Whittle指数策略的结构来缩小Q-learning的搜索空间,从而获得重大的计算增益。通过数字实验支持的严格收敛性分析。数字实验表明了所提出的方案具有优异的效果。