Jan, 2019

基于信赖域引导的近端策略优化

TL;DR对Proximal policy optimization的探索行为进行了深入分析,提出了一种名为Trust Region-Guided PPO的新的策略优化方法,通过自适应调整裁剪范围解决了初始条件差的情况下缺乏探索的问题,并证明其相较于原始的PPO算法有更好的性能表现。