Jan, 2018

使用时序差分方法直接估计 λ 返回的方差

TL;DR本文提出了一种使用强化学习中的策略评估方法来直接估计 '\lambda-return' 的方差的方法,与现有方法相比,其方法更简单且更稳健。