Jul, 2019

带有线性函数逼近的可证明有效强化学习

TL;DR本文提出了第一个在基于线性动态和线性奖励时,具有多项式运行时间和样本复杂度的可证明的强化学习算法,该算法可以在不需要模拟器或其他假设的情况下实现,具有快速速度且与状态和动作数量无关。