Dec, 2018

TD 正则化的 Actor-Critic 方法

TL;DR本文介绍了一种名为 TD 正则化 actor-critic 方法的算法,它可以通过对演员学习目标进行正则化来改善算法的稳定性,并取得更好的性能表现。