Jun, 2022

使用线性结构稳定Q学习,以实现证明有效的学习

TL;DR本文讨论了$Q$-learning算法的不稳定性问题,提出了一种基于探索的改进方案。该算法通过结合二阶更新,目标网络等机制,实现了线性MDPs的最新遗憾界限,并且算法设计独立于时间步长。此外,该算法表现出一定的实例依赖性,并且在近似误差更为宽松的条件下的性能下降比较缓慢。