Jun, 2013

通过后验抽样实现(更)高效的强化学习

TL;DR该研究提出了一种用于强化学习的后验采样方法(PSRL),通过对一个先验分布进行贝叶斯更新来在已知的一系列时段内实现对Markov决策过程的优化,从而达到高效的探索。该算法在时间,状态和行动空间上有明显的性能优势,并具有一定的先验知识编码能力。