Jul, 2020

PC-PG: 基于策略覆盖指导探索的可证明策略梯度学习

TL;DR介绍了 Policy Cover-Policy Gradient (PC-PG) 算法,其通过学习的策略集 (策略保证) 来平衡探索和开发的权衡,同时具有强大的模型误差优化保证