May, 2021

数据高效的疟疾控制强化学习

TL;DR本文介绍了一种名为 Variance-Bonus Monte Carlo Tree Search (VB-MCTS) 的实用、数据效率高的策略学习方法,它是一种基于模型的强化学习方法,应用高斯过程回归估计转变,提出了一种方差奖励来衡量对世界的不确定性,进一步优化了计划,得到了更有效的探究,综合实验结果表明,在困难的疟疾控制任务上,VB-MCTS优于现有技术。