ICMLJun, 2019

乐观的近端策略优化

TL;DR本研究通过提出一种基于乐观策略优化的方法(Optimistic Proximal Policy Optimization,OPPO),针对奖励稀少的领域,考虑了总收益的不确定性并在此基础上对策略进行乐观评估,从而优化自主代理的学习效果,实现了在表格任务上优于现有方法的结果。