NIPSMay, 2012

使用基于样本的搜索实现高效的贝叶斯自适应强化学习

TL;DR本研究提出了一种基于蒙特卡洛树搜索 (Monte-Carlo tree search) 的可行的、基于样本的近似贝叶斯最优规划方法,它避免了在搜索树中昂贵的应用贝叶斯规则,通过从当前信念中懒惰地抽样模型。实验证明,与以前的贝叶斯模型为基础的 RL 算法相比,在几个知名的基准问题上,我们的方法表现出了明显的优势。