Oct, 2023
基于价值偏差的最大似然估计在折扣线性MDPs中的模型驱动强化学习
Value-Biased Maximum Likelihood Estimation for Model-based Reinforcement
Learning in Discounted Linear MDPs
TL;DR我们提出使用基于反向传递最大似然估计的价值偏置方法来解决具有无限时间视角的线性马尔可夫决策过程,该方法在理论上证明具有几乎最优的遗憾,并且在计算上更高效,我们还发现线性马尔可夫决策过程和在线学习之间存在有趣的联系。