Feb, 2018
模型集成信任区域策略优化
Model-Ensemble Trust-Region Policy Optimization
TL;DR通过使用深度神经网络同时学习模型和策略,我们分析了基于模型的增强学习方法的行为,并展示出学习到的策略倾向于利用模型学习不足的区域,导致训练不稳定。为了解决这个问题,我们提出使用模型集合来维护模型的不确定性并规范学习过程,并进一步展示,与“Backpropagation through time”相比,使用“likelihood ratio”导数可以获得更加稳定的学习。通过我们的方法ME-TRPO,在具有挑战性的连续控制基准任务中,显著减少了比基于模型的深度RL方法所需的样本数量。