Nov, 2024

利用弱神经网络掌握NIM和无偏游戏:一种类似AlphaZero的多帧方法

TL;DR本研究解决了AlphaZero风格强化学习算法在NIM这一公正游戏中学习最优策略的困难问题。我们提出通过考虑游戏的历史信息,可以使这些受限的AlphaZero模型在理论上实现NIM的最优玩法。研究结果显示,合理设计的受限神经网络能够在其基本计算能力看似不足的领域内实现复杂的决策制定。