BriefGPT.xyz
Ask
alpha
关键词
ensemble of learned policies
搜索结果 - 1
PC-PG: 基于策略覆盖指导探索的可证明策略梯度学习
介绍了 Policy Cover-Policy Gradient (PC-PG) 算法,其通过学习的策略集 (策略保证) 来平衡探索和开发的权衡,同时具有强大的模型误差优化保证
PDF
4 years ago
Prev
Next