Jan, 2013

PEGASUS:用于大型 MDPs 和 POMDPs 的策略搜索方法

TL;DR在马尔可夫决策过程 (MDP) 或部分可观测马尔可夫决策过程 (POMDP) 中搜索策略的问题上,我们提出了一种新的方法,即通过将(PO)MDP 换成一个 “等价” 的 POMDP,其中所有状态转换都是确定性的,然后通过搜索价值最高的策略来进行策略搜索,该方法适用于任意 POMDP 并且已经在自行车学习问题上进行了实证。