AAAIDec, 2020

梯度预期 Sarsa ($λ$) 的收敛性

TL;DR本研究针对线性函数近似下的 Expected Sarsa 算法的收敛问题,通过提出收敛性较好的 Gradient Expected Sarsa 算法,并应用 Lyapunov 函数技术分析其性能,得到较优实验结果。