Apr, 2022

启发式搜索通过测试时间获得更快的训练 ——AlphaZero 启发式游戏学习

TL;DR本文提出了一种 AlphaZero 启发的 MCTS 包装器,将其与时间差异学习智能体相结合,在不需要 GPU 或 TPU 等高性能计算资源的情况下,在多个复杂的游戏中成功打败强劲对手,取得了显著优势。