Jun, 2019

何时信任你的模型:基于模型的策略优化

TL;DR本文研究模型在强化学习算法中的使用,旨在解决生成数据的容易程度与模型生成数据的偏差之间的平衡问题。作者提出了一种基于模型的强化学习算法,并探讨了模型在策略优化中的作用。实践中,作者发现模型生成的在线策略数据总是不如真实的离线数据。然而,通过将模型泛化能力的经验估计纳入到分析中,可以证明模型的使用是合理的。最后,作者展示了一种简单的方法,使用从真实数据中分支的短模型生成滚动数据,具有比其他基于模型的方法更好的样本效率,可以匹配最佳无模型算法的渐近性能,并能处理其它基于模型的算法不能处理的问题。