Jan, 2019

基于信赖域引导的近端策略优化

TL;DR对 Proximal policy optimization 的探索行为进行了深入分析,提出了一种名为 Trust Region-Guided PPO 的新的策略优化方法,通过自适应调整裁剪范围解决了初始条件差的情况下缺乏探索的问题,并证明其相较于原始的 PPO 算法有更好的性能表现。