IJCAIJul, 2023

选择优秀的对手:如何指导程序战略的综合

TL;DR本文介绍了 Local Learner(2L),一种用于提供一组参考策略以指导在双人零和博弈中寻找策略的算法,并使用 MicroRTS 等三个游戏进行了实证研究,结果表明,与传统方法相比,2L 能够学习到提供更强的搜索信号的参考策略。同时,在 MicroRTS 比赛中,使用 2L 的综合策略表现优于两个最新 MicroRTS 比赛的获胜者,这些获胜者是由人类程序编写的。