Feb, 2016

基于分解线性模型的模型导向强化学习的策略误差界

TL;DR本研究采用基于模型的方法研究在马尔科夫决策过程中计算近似最优策略的问题。我们用一种类似于线性模型的模型导出政策时的损失进行了计算,并给出了多种模型的性能界限。 与其他方法导出的类似界限不同的是,我们的界限对折现因子变化不敏感,并且不受度量不匹配的影响。我们的证明基于压缩空间内运算符的收缩论证,采用构建于 Banach 格上的精心设计的范数来加强之前方法的预设。