Feb, 2024

使用深度强化学习和行为规范掌握官旦游戏

TL;DR提出了一种名为GuanZero的框架,通过蒙特卡洛方法和深度神经网络使AI代理能够掌握Guandan游戏,主要贡献在于通过精心设计的神经网络编码方案调节代理的行为,通过与最先进的方法进行比较证明了该框架的有效性。