Feb, 2012

学习即规划:通过蒙特卡罗树搜索实现接近 Bayes 最优强化学习

TL;DR使用前向搜索稀疏采样算法(FSSS)可以实现接近 Bayes 最优行为,从而使用 Monte-Carlo 树搜索算法有效地处理状态空间极大或无限大的马尔可夫决策过程(MDPs)。