Nov, 2022

AlphaSnake: 非确定性 NP-hard 马尔科夫决策过程的策略迭代

TL;DR本文利用蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS)算法创造了自主智能体,学习玩 Snake 游戏,该游戏可被公式化为单人折扣马尔可夫决策过程,问题困难度大,但与先前工作相比,该算法是首个实现胜率超过 $0.5$ 的算法,可应用于解决复杂的 NP 困难问题。