Feb, 2016

使用谱方法强化学习POMDPs

TL;DR提出了一种新的强化学习算法用于部分可观察的马尔可夫决策过程(POMDP),该算法基于谱分解方法,学习参数通过固定政策生成的轨迹,并通过优化oracle返回最优的无记忆规划策略,算法可以有效缩放观测和行动空间的维度。