Feb, 2022
通用策略网络的快速基于模型的策略搜索
Fast Model-based Policy Search for Universal Policy Networks
Buddhika Laknath Semage, Thommen George Karimpanal, Santu Rana, Svetha Venkatesh
TL;DR通过在仿真环境中使用基于高斯过程的先验知识,结合基于贝叶斯优化的策略搜索方法,提高在连续和离散控制环境中智能体行为的适应性,实验表明相比其他竞争基准,该方法的效果更好。