AAAINov, 2018

基于模型探索的策略优化

TL;DR介绍了一种名为 Policy Optimization with Model-based Explorations (POME) 的新的强化学习策略优化方法,将模型自由和模型依赖估计方法的差距视作探索价值的度量,并将 Monte-Carlo 抽样方法与转移模型相结合,以最大化预测误差的探索价值,从而解决了模型自由与模型依赖学习之间权衡的问题。