Jul, 2020

具有正则化修正的梯度时序差分学习

TL;DR介绍了一种新的 TD 方法——TDRC,它在易用性、正确性和性能之间平衡,在 TD 表现良好时,表现与 TD 相当,并且在 TD 发散时保持正确性。