Mar, 2016

PLATO: 使用自适应轨迹优化的策略学习

TL;DRPLATO算法通过模型预测控制生成监督信号训练控制策略,以逐步匹配学到的策略,并保证其安全性,同时维持模型预测控制的成本作为约束,使最终学到的策略在长时间任务中表现良好。实验结果表明,PLATO算法相较于先前方法,学习速度更快,在训练过程中遇到灾难性失败(坠机)的次数大幅减少,更可能收敛到较好的策略。