May, 2014
在强化学习中选择近似最优的状态表示
Selecting Near-Optimal Approximate State Representations in Reinforcement Learning
Ronald Ortner, Odalric-Ambrym Maillard, Daniil Ryabko
TL;DR本文研究了一种强化学习设置,其中学习者没有显式访问底层马尔可夫决策过程(MDP)的状态,而是可以访问将过去互动的历史映射到状态的多个模型,并改进了这种设置下已知的后悔边界,并更重要的是对给定给学习者的模型不包含 MDP 表示而只包含其近似的情况进行了概括。我们还改进了状态聚合的误差边界。