Dec, 2022

多个目标的策略学习:将最优策略树与多目标贝叶斯优化相结合

TL;DR论文提出了一种称为多目标策略学习的方法,它将政策学习的最佳决策树与多目标贝叶斯优化方法相结合,通过建立非支配模型的帕累托前沿来探索多个结果间的权衡,并使用代理函数作为非常昂贵的期望遗憾的最优树的准确代理。该方法应用于摩洛哥现实案例研究中的条件性现金转移上,部分最优、部分贪心的杂交策略树作为最优策略树的代理,能够提供良好的性能,并且计算成本低廉。