Mar, 2015

一种强调的离线时序差分学习方法

TL;DR本文介绍了通过有选择地加强或减弱不同时间步骤的更新来改善参数化时序差分学习算法的性能,并且提出了一种新的增强TD(λ)算法,相较于之前的方法,它更简单易用,只有一个学习参数向量和一个步长参数,含有状态相关折扣函数和自举函数,并且能够根据需要确定不同状态的精确定价程度。