May, 2018

指纹策略优化的稳健强化学习

TL;DR本文介绍了指纹策略优化算法 (FPO),使用贝叶斯优化来发现最大化策略梯度方法每次迭代产生的改进的环境变量分布,可以有效地学习对重要罕见事件具有稳健性的策略。