Oct, 2021

使用线性函数逼近的无奖励模型强化学习

TL;DR本文研究线性函数逼近的无奖励强化学习与马尔可夫决策过程,并提出了一种新算法UCRL-RFE,其中使用线性函数对状态、动作和下一个状态进行特征映射,能够在探索阶段最多采样$\tilde{\mathcal{O}}(H^5d^2\epsilon^{-2})$周期,用于构建奖励函数并实现任意奖励下的$\epsilon$-最优策略。