Aug, 2022

一种可证明有效的无模型后验采样方法,用于情节强化学习

TL;DR本文提出了一种新的模型无关后验采样的公式,适用于更广泛的周期性强化学习问题,并通过新颖的证明技术,展示了在适当条件下,我们的后验采样方法的最坏后果可以与基于优化的方法的最优结果相匹配,尤其是在线性MDP设置中,我们的算法产生的遗憾与现有基于后验采样的探索算法相比,随着维度线性增长而非二次依赖。