Sep, 2009

一种收敛的在线单时间尺度演员评论家算法

TL;DR介绍一种基于Actor-Critic的在线时序差异算法,用于评估值函数以及更新参数,且可以实现对平均奖励的局部最大值的收敛,为构建更真实的强化学习神经科学模型提供了可能性。