May, 2024

演化算法评估 Connect-4 中高级 Minimax、Q-Learning 和 MCTS 的比较框架

TL;DR在大状态空间的决策领域中,有效选择最大效用的行动是一个主要挑战。本文针对一个游戏领域 ——Connect-4,开发了一种新颖的进化框架来评估三类算法:强化学习(RL)、极大极小算法(Minimax)和蒙特卡洛树搜索(MCTS)。研究发现,MCTS 在胜率方面取得了最好的结果,而 Minimax 和 Q-Learning 分别排名第二和第三,尽管后者在决策速度方面表现最快。