Jun, 2021

使用贝叶斯优化的本地政策搜索

TL;DR提出了一种基于概率模型的算法,结合了强化学习中的政策梯度方法和贝叶斯优化中的权衡充分利用已知信息选取样本的方法,实现了通过主动挑选样本来提高梯度估计的效果和减少样本复杂度,具有广泛的应用前景。