Oct, 2023

在线线性 $ q^π $ 可实现 MDPs 中的 RL 与线性 MDPs 一样简单,只要你学会忽略什么

TL;DR在线强化学习中的线性可实现的马尔可夫决策过程 (MDP),提出了一种计算效率较低的学习算法,通过跳过特定状态转化为线性 MDP,并证明了该算法在这种情况下具有多项式样本复杂度。