May, 2023
参数化马尔可夫决策过程下的汤普森采样
Thompson Sampling for Parameterized Markov Decision Processes with Uninformative Actions
Michael Gimelfarb, Michael Jong Kim
TL;DR本论文研究了参数化马尔可夫决策过程(Parameterized MDPs),使用贝叶斯推理学习其中的关键参数,提出了一组假设,对 Thompson 抽样算法保证了一个渐进最优的预期后悔边界(Asymptotically optimal expected regret bound)为 $O (T^{-1})$,并且可以轻松地验证在许多问题类别中,如排队、库存控制和动态定价中的应用。