Feb, 2019

跨时间尺度分离价值函数

TL;DR本文提出的TD(Delta)算法是一种针对有限horizon episodic reinforcement learning(RL)的value function approximator,通过将长时间horizon的值函数划分为components以解决标准TD学习中的缺陷。