May, 2016

一种适用于情节式 POMDP 的 PAC RL 算法

TL;DR本文研究了部分可观的强化学习问题,并提出了首个具有多项式边界的算法,用于处理一类重要的 POMDP 问题,该算法基于最近的方法学方法来估计潜在变量模型。