Jan, 2023

利用压缩更新的时序差分学习:误差反馈与强化学习相遇

TL;DR本文研究了带有压缩算子的强化学习过程对经典时间差分学习算法的影响,并证明了在误差反馈机制的作用下,以及与线性函数逼近和马尔可夫采样一起使用时,压缩的时间差分算法可以与 SGD 相似地具有非渐近理论保证。此外,本文还扩展了结果,提出了多智能体 TD 学习的线性收敛速度快速提升的证明。