May, 2024

演化算法评估Connect-4中高级Minimax、Q-Learning和MCTS的比较框架

TL;DR在大状态空间的决策领域中,有效选择最大效用的行动是一个主要挑战。本文针对一个游戏领域——Connect-4,开发了一种新颖的进化框架来评估三类算法:强化学习(RL)、极大极小算法(Minimax)和蒙特卡洛树搜索(MCTS)。研究发现,MCTS在胜率方面取得了最好的结果,而Minimax和Q-Learning分别排名第二和第三,尽管后者在决策速度方面表现最快。