Jul, 2022

PAC 强化学习用于预测状态表示

TL;DR本文研究了在线强化学习在部分可观测动态系统中的应用,提出了一种基于模型的算法,通过可观测量学习了一个近似最优策略,其样本复杂度与系统的有关参数呈多项式关系。该算法自然地支持函数逼近,可处理具有潜在大状态和观测空间的系统,并且在一些特殊模型中也得到了有效应用。