Aug, 2022

侦察盲棋中的观测监督学习和强化学习

TL;DR本研究采用AlphaGo启发的训练方法来玩不完全信息的侦察盲棋,通过自我对弈与PP0强化学习算法来提高非监督代理性能,用此方法在RBC排行榜上达到1330 ELO,排名第27,证明了自我对弈对性能的显著提升,而不使用搜索和对真实游戏状态的假设也能使代理表现得相当不错。