Jun, 2014
光滑参数化系统的贝叶斯最优控制:懒惰后验采样算法
Bayesian Optimal Control of Smoothly Parameterized Systems: The Lazy Posterior Sampling Algorithm
Yasin Abbasi-Yadkori, Csaba Szepesvari
TL;DR本文研究了贝叶斯最优控制策略在平滑参数化马尔可夫决策问题中的应用,提出了一种基于后验采样的算法来缓解计算代价,并展示该算法在 Web 服务器控制应用中的高效性与稳定性。