Feb, 2022

通用策略网络的快速基于模型的策略搜索

TL;DR通过在仿真环境中使用基于高斯过程的先验知识,结合基于贝叶斯优化的策略搜索方法,提高在连续和离散控制环境中智能体行为的适应性,实验表明相比其他竞争基准,该方法的效果更好。