May, 2012

使用可逆跳转 MCMC 求解马尔可夫决策过程的新推理策略

TL;DR本文提出了利用 Markov Chain Monte Carlo (MCMC) 方法解决参数控制问题的技术,并进行了多项改进,以在高维空间下更加实用。我们首先介绍了一种新的目标分布,能够从采样轨迹中合并更多的回报信息。我们还展示了如何有效地破解政策参数与采样轨迹之间较强的相关性,以便更自由地采样。最后,我们展示了如何以原则性方式将这些技术结合起来,从而获得最优策略的估计结果。