May, 2014

在强化学习中选择近似最优的状态表示

TL;DR本文研究了一种强化学习设置,其中学习者没有显式访问底层马尔可夫决策过程(MDP)的状态,而是可以访问将过去互动的历史映射到状态的多个模型,并改进了这种设置下已知的后悔边界,并更重要的是对给定给学习者的模型不包含 MDP 表示而只包含其近似的情况进行了概括。我们还改进了状态聚合的误差边界。