TL;DR通过后验采样强化学习实现了比乐观主义算法(如 UCRL2)显着更好的效果,并建立了一个新的贝叶斯期望遗憾界,优于以往任何强化学习算法,该界为 O (H√SAT)。
Abstract
Computational results demonstrate that posterior sampling for reinforcement
learning (PSRL) dramatically outperforms algorithms driven by optimism, such as
UCRL2. We provide insight into the extent of this perfor
利用线性混合马尔可夫决策过程模拟的函数逼近方法,本研究推进了强化学习中的随机探索。我们建立了关于函数逼近的依赖先验的贝叶斯遗憾界限,并对后验抽样强化学习的贝叶斯遗憾分析进行了改进,提出了一个上界为 O (d√(H^3 T log T)) 的方法,其中 d 表示转移核的维度,H 表示规划时间,T 表示总交互次数。相对于线性混合马尔可夫决策过程的先前基准 (Osband 和 Van Roy,2014) 优化了 O (√log T) 因子,我们的方法采用了面向值的模型学习视角,引入解耦和方案和方差减少技术,超越了传统分析对置信区间和集中不等式的依赖,更有效地规范贝叶斯遗憾界限。