Nov, 2022

AlphaSnake: 非确定性NP-hard马尔科夫决策过程的策略迭代

TL;DR本文利用蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS)算法创造了自主智能体,学习玩Snake游戏,该游戏可被公式化为单人折扣马尔可夫决策过程,问题困难度大,但与先前工作相比,该算法是首个实现胜率超过 $0.5$ 的算法,可应用于解决复杂的NP困难问题。