Apr, 2019

策略梯度搜索:无需搜索树的在线规划和专家迭代

TL;DR本研究提出一种用于模拟搜索的政策梯度搜索方法,通过在线更新神经网络模拟策略,实现避免使用搜索树的效果。在 Hex 上,与 MCTS 相比,PGS 取得了相当的性能,并且使用 PGS 进行专家迭代训练的代理能够在 9x9 Hex 中击败最强的开源 Hex 代理 MoHex 2.0。