NIPSSep, 2017

学习未知马尔可夫决策过程:一种汤普森抽样方法

TL;DR本文提出了一种基于贝叶斯的 Thompson Sampling 加持的动态时段算法 (TSDE),尝试在无限的时间尺度内解决了一个学习未知 MDP 的问题,实现了很好的性能并达到了理论界限。