Sep, 2022

强化学习中样本高效函数逼近的通用框架

TL;DR本文提出了一个能够统一模型驱动和无模型驱动强化学习的通用框架,本框架中提出了一个可见证贝尔曼算法(ABC)类别,能够涵盖几乎所有文献中的马尔可夫决策过程(MDP)模型。结合该框架,本文提出了一个新的算法 OPtimization-based ExploRation with Approximation(OPERA),能够在多种 MDP 模型中达到最小遗憾的上限。