Sep, 2018

基于模型的强化学习:元策略优化

TL;DR提出了一种基于元策略优化的强化学习方法,使用多个学习的动态模型集合来适应真实世界的动态,提高数据利用率和鲁棒性,达到和基于经验的方法一样的渐近性能。