Jul, 2020

情节性强化学习中乐观性的统一视角

TL;DR本文提供了一个基于 Lagrangian 对偶的一般性框架,用于设计、分析和实施当面临不确定性的时候的乐观加强学习算法,并证明了构建乐观 MDP 的模型乐观算法与价值乐观 DP 算法等价;此外,该框架还能够处理实现复杂的问题,并可以对最近提出的方法进行简单的数学建模。