ICLROct, 2019

基于贝叶斯优化的子目标探索

TL;DR本文提出了一种基于代价感知的贝叶斯优化方法,旨在通过动态子目标的一系列探索策略来克服稀疏奖励、高昂交互和噪声等挑战,实现在未知分布环境下的政策学习。在实验评估中,平均而言,所提出的算法在问题领域上的表现优于 MAML 元学习算法 19%,超参数调整方法 Hyperband 23%,BO 技术 EI 和 LCB 分别为 24%和 22%。