Mar, 2020

有限马尔可夫决策问题中的勘探 - 利用

TL;DR本文研究了 Constrained Markov Decision Processes 下的 exploration-exploitation trade-off 问题,提出了两种方法:基于线性规划和基于对偶变量逐步更新的方法。研究结果表明,这两种方法都可以实现 sublinear regret,但是线性规划方法具有更强的保障性。