Dec, 2022

基于规约的平均回报 MDP 的近似最优策略学习

TL;DR本研究考虑采用生成模型(模拟器)以获取平均奖励 MDP 中的 eps 策略最优性的样本复杂度。