Mar, 2020

有限马尔可夫决策问题中的勘探-利用

TL;DR本文研究了Constrained Markov Decision Processes下的exploration-exploitation trade-off问题,提出了两种方法:基于线性规划和基于对偶变量逐步更新的方法。研究结果表明,这两种方法都可以实现sublinear regret,但是线性规划方法具有更强的保障性。