Jan, 2013

使用标准化重要性采样的 POMDP 政策改进

TL;DR提出了一种新方法来从经验中估计 POMDP 的预期收益率。方法不需要任何 POMDP 知识,允许从任意策略序列中收集经验。可以为 POMDP 的任何新策略估计回报。我们从函数逼近和重要性采样的角度进行了估计器的激励并推导出其理论性质。虽然估计器存在偏差,但它的方差较小,并且在进行成对比较时偏差通常是无关紧要的。最后,将估计器扩展到具有记忆的策略,并将其在贪心搜索算法中与 REINFORCE 算法的性能进行比较,显示了需要的试验次数的数量级的减少。