ICMLJun, 2012
使用 RKHS 嵌入建模 MDP 的转换动态
Modelling transition dynamics in MDPs with RKHS embeddings
Steffen Grunewalder, Guy Lever, Luca Baldassarre, Massi Pontil, Arthur Gretton
TL;DR研究了一种使用嵌入表示条件分布的非参数方法,该方法无需估计转移概率或密度,可用于标准控制问题和只有传感器输入的导航问题中,利用值迭代算法和方策迭代算法获得更好的最优策略和价值函数性能。