Feb, 2022

带策略增强蒙特卡罗树搜索的非静态环境决策

TL;DR通过结合强化学习和计划,提出了一种称为Policy Augmented MCTS(PA-MCTS)的新型混合决策方法,将策略的动作价值估计结合到MCTS中,以更好地适应非稳态环境下的决策制定。经测试,PA-MCTS相对于标准MCTS和纯强化学习能更快地收敛并做出更好的决策。