May, 2024

中國跳棋中高效學習:多智能體增強學習中的參數共享比較

TL;DR用全参数共享的多智能体强化学习(MARL)在中国跳棋的完全信息同质博弈中胜过独立和部分共享结构。为了运行实验,我们开发了一个新的 MARL 环境:可变大小、六人中国跳棋。该定制环境是在 PettingZoo 中开发的,支持游戏的所有传统规则,包括链式跳跃。据我们所知,这是中国跳棋的第一个忠实于真实游戏的实现。