May, 2012
使用基于样本的搜索实现高效的贝叶斯自适应强化学习
Efficient Bayes-Adaptive Reinforcement Learning using Sample-Based
Search
TL;DR本研究提出了一种基于蒙特卡洛树搜索(Monte-Carlo tree search)的可行的、基于样本的近似贝叶斯最优规划方法,它避免了在搜索树中昂贵的应用贝叶斯规则,通过从当前信念中懒惰地抽样模型。实验证明,与以前的贝叶斯模型为基础的RL算法相比,在几个知名的基准问题上,我们的方法表现出了明显的优势。