Oct, 2008

没有学习率的时序差分更新

TL;DR本文从统计原理出发,推导出一种新的时序差分学习公式,相比现有的 TD (lambda) 算法,不需要使用学习速率参数 alpha,而是针对每个状态转移具有自己的学习速率,实验结果表明该算法在强化学习任务中表现更为优异。