Apr, 2022

启发式搜索通过测试时间获得更快的训练——AlphaZero启发式游戏学习

TL;DR本文提出了一种AlphaZero启发的MCTS包装器,将其与时间差异学习智能体相结合,在不需要GPU或TPU等高性能计算资源的情况下,在多个复杂的游戏中成功打败强劲对手,取得了显著优势。