Mar, 2017

无模型蒙特卡罗法中引入外生状态

TL;DR本文提出了一种针对高维 MDPs 的新方法 MFMCi,通过剔除一些状态和动作变量来实现状态转移的搭配,以此来代替昂贵的模拟器生成轨迹,该方法在具有挑战性的野火管理 MDP 上进行了评估。