Jan, 2018
使用时序差分方法直接估计 λ 返回的方差
Directly Estimating the Variance of the λ-Return Using Temporal-Difference Methods
Craig Sherstan, Brendan Bennett, Kenny Young, Dylan R. Ashley, Adam White...
TL;DR本文提出了一种使用强化学习中的策略评估方法来直接估计 '\lambda-return' 的方差的方法,与现有方法相比,其方法更简单且更稳健。