基于Whittle指数的平均奖励不安匪徒问题的Q学习

Apr, 2020

基于Whittle指数的平均奖励不安匪徒问题的Q学习

Whittle index based Q-learning for restless bandits with average reward

Konstantin Avrachenkov, Vivek S. Borkar

TL;DR引入一种新的增强学习算法，利用Q-learning和Whittle指数的范例来解决平均奖励下的多臂赌博机问题。具体而言，利用Whittle指数策略的结构来缩小Q-learning的搜索空间，从而获得重大的计算增益。通过数字实验支持的严格收敛性分析。数字实验表明了所提出的方案具有优异的效果。

Abstract

A novel reinforcement learning algorithm is introduced for multiarmed restless bandits with average reward, using the paradigms of q-learning and