NIPSMay, 2017

基于谱方法的 POMDP 强化学习实验结果

TL;DR提出了一种基于谱分解方法的新的强化学习算法,用于部分可观察马尔可夫决策过程(POMDP)。通过谱技术从由固定策略生成的轨迹中学习 POMDP 参数,运行多个历元后,最终通过优化预测的 POMDP 模型返回最佳无记忆策略,并证明了与最优无记忆策略具有相对最优的后悔界和有效的缩放性。