May, 2008

策略迭代的概率采样法近似实现

TL;DR本文提出了一种改进的策略迭代算法,使用分类器代替值函数,并将策略学习作为监督学习问题进行处理,解决了通过模拟评估策略时的核心抽样问题,实验验证表明其能在反摆杆和车山等领域内实现可比较的性能提升,并显著减少计算工作量。