May, 2023

参数化马尔可夫决策过程下的汤普森采样

TL;DR本论文研究了参数化马尔可夫决策过程(Parameterized MDPs),使用贝叶斯推理学习其中的关键参数,提出了一组假设,对 Thompson 抽样算法保证了一个渐进最优的预期后悔边界(Asymptotically optimal expected regret bound)为 $O (T^{-1})$,并且可以轻松地验证在许多问题类别中,如排队、库存控制和动态定价中的应用。