Oct, 2021
在线目标Q学习与倒置经验回放:高效找到线性MDP的最优策略
Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs
TL;DR本文研究了在强化学习中常用的 Q-learning 算法,在理论和实践之间的差距,并提出了两种改进方法,分别为 Q-Rex 和 Q-RexDaRe,这两个方法能够更有效地找到线性马尔科夫决策过程的最佳策略并提供了采样复杂度的非渐近界限。