Jul, 2016

一种贪心方法用于适应时序差分学习的迹参数

TL;DR本文提出了一种新的目标函数来优化 lambda,使用基于状态而不是时间的线性复杂度的增量式 lambda 适应算法,并在三个不同的环境中进行了实验,这些贡献是针对在现实世界问题中运用时间差异学习方法的具体步骤。