AAAIMay, 2022

乐观 Whittle 指数策略:动态赌博机的在线学习

TL;DR该研究提出了一种基于 Whittle 指数策略的在线学习算法 UCWhittle,使用上限置信度方法学习转移动力学来解决具有未知状态转移的 RMAB 问题,该算法在三个不同领域均表现出比现有在线学习算法更好的性能。