Jun, 2024

通过即时状态条件的动作抽象实现高效蒙特卡罗树搜索

TL;DR基于组合结构的行为抽象可以提高蒙特卡洛树搜索在具有复杂动作空间问题上的效率。本研究通过学习一个潜在的动态模型和辅助网络,构建了一种状态条件行为抽象方法,用于减少搜索空间并提高采样效率,并在实验中展示了其比传统 MuZero 方法更好的采样效率。