BriefGPT.xyz
Jun, 2013
通过后验抽样实现(更)高效的强化学习
(More) Efficient Reinforcement Learning via Posterior Sampling
HTML
PDF
Ian Osband, Daniel Russo, Benjamin Van Roy
TL;DR
该研究提出了一种用于强化学习的后验采样方法(PSRL),通过对一个先验分布进行贝叶斯更新来在已知的一系列时段内实现对Markov决策过程的优化,从而达到高效的探索。该算法在时间,状态和行动空间上有明显的性能优势,并具有一定的先验知识编码能力。
Abstract
Most provably-efficient learning algorithms introduce optimism about poorly-understood states and actions to encourage exploration. We study an alternative approach for
efficient exploration
, \emph{
posterior sampling
→