Sep, 2022
强化学习中样本高效函数逼近的通用框架
A General Framework for Sample-Efficient Function Approximation in Reinforcement Learning
Zixiang Chen, Chris Junchi Li, Angela Yuan, Quanquan Gu, Michael I. Jordan
TL;DR本文提出了一个能够统一模型驱动和无模型驱动强化学习的通用框架,本框架中提出了一个可见证贝尔曼算法(ABC)类别,能够涵盖几乎所有文献中的马尔可夫决策过程(MDP)模型。结合该框架,本文提出了一个新的算法 OPtimization-based ExploRation with Approximation(OPERA),能够在多种 MDP 模型中达到最小遗憾的上限。