Nov, 2016

使用谱方法进行丰富观测 MDP 的强化学习

TL;DR本文研究富观测马尔科夫决策过程(ROMDP),提出了一种谱分解方法用于在有限时间内成功地学习到每个观测状态的隐状态,由此引入了基于寻优算法的强化学习算法 UCRL,且在维度依赖性方面具有较弱的相关性的有限时间遗憾边界。