May, 2020

长期强化学习是否比短期强化学习更困难?

TL;DR通过构建 ε- 网络和在线轨迹合成算法,证明纯表格的情况下,对于每个长度的规划时间,可以通过对数级的样本复杂度在多项式时间内发现适当规范化后的最佳策略,从而证明了一个假设,即规划时间的增加并不会增加学习长时序的 RW 的难度。