Jun, 2022

使用蒙特卡罗树搜索的策略梯度算法用于非马尔可夫决策过程

TL;DR本文介绍一种结合 Policy Gradient 和 Monte-Carlo Tree Search 的混合策略,旨在克服两种方法在应对非马尔可夫决策过程上的困难,有效提升算法的效率。