Oct, 2016

具有低 Bellman 秩的情境决策过程可以被 PAC 学习

TL;DR本文探讨了如何使用富观测和函数逼近进行强化学习的系统性探索,并介绍了一种新的模型,即上下文决策过程,它统一和概括了大多数之前的设置,并提出了一种新的强化学习算法,我们的算法用 Bellman rank 衡量复杂度,使用乐观探索最小化 Bellman 误差,保证在所有相关参数的时间多项式的情况下学会近似最优行为,为强化学习提供了新的见解。