ICMLJun, 2012

使用 RKHS 嵌入建模 MDP 的转换动态

TL;DR研究了一种使用嵌入表示条件分布的非参数方法,该方法无需估计转移概率或密度,可用于标准控制问题和只有传感器输入的导航问题中,利用值迭代算法和方策迭代算法获得更好的最优策略和价值函数性能。