Sep, 2019

$\sqrt {n}$-Regret 算法在带有函数逼近和低 Bellman 等级的马尔可夫决策过程学习中的应用

TL;DR本文提出了一种在线学习算法,即 Adaptive Value-function Elimination(AVE),用于大规模状态空间下的 Markov 决策过程(MDPs),形式化了 OLIVE 中的淘汰步骤为上下文乐队问题,从而在学习过程中实现了最优价值函数的学习和非常低的累积遗憾,这是首次在具有一般价值函数逼近的随机 MDPs 中以 Θ(√n)的累积遗憾结果呈现出增强学习。