Feb, 2024

SMX: 专家迭代的顺序蒙特卡罗规划

TL;DRSMX 是一个基于模型的规划算法,利用可扩展的序贯蒙特卡洛方法创建了一个有效的自学习机制,通过采样的搜索方法使其适用于离散和连续动作空间的环境,并且具有高度的并行化和计算效率优化的能力。与 AlphaZero 相比,SMX 在性能上有显著的提升,并且在连续和离散环境中与顶尖无模型方法相匹配或超越。