Nov, 2019

最紧密的有限时间界约束下的两时间尺度强化学习故事

TL;DR以两时间步随机逼近框架为基础的渐变时序差异方法(GTD (0)、GTD2 和 TDC)的收敛速率界限及其证明。