Sep, 2019
$\sqrt{n}$-Regret算法在带有函数逼近和低Bellman等级的马尔可夫决策过程学习中的应用
$\sqrt{n}$-Regret for Learning in Markov Decision Processes with
Function Approximation and Low Bellman Rank
TL;DR本文提出了一种在线学习算法,即Adaptive Value-function Elimination(AVE),用于大规模状态空间下的Markov决策过程(MDPs),形式化了OLIVE中的淘汰步骤为上下文乐队问题,从而在学习过程中实现了最优价值函数的学习和非常低的累积遗憾,这是首次在具有一般价值函数逼近的随机MDPs中以Θ(√n)的累积遗憾结果呈现出增强学习。