Feb, 2024

使用深度强化学习和行为规范掌握官旦游戏

TL;DR提出了一种名为 GuanZero 的框架,通过蒙特卡洛方法和深度神经网络使 AI 代理能够掌握 Guandan 游戏,主要贡献在于通过精心设计的神经网络编码方案调节代理的行为,通过与最先进的方法进行比较证明了该框架的有效性。