SMX: 专家迭代的顺序蒙特卡罗规划

Feb, 2024

SMX: 专家迭代的顺序蒙特卡罗规划

SMX: Sequential Monte Carlo Planning for Expert Iteration

Matthew V Macfarlane, Edan Toledo, Donal Byrne, Siddarth Singh, Paul Duckworth...

TL;DRSMX 是一个基于模型的规划算法，利用可扩展的序贯蒙特卡洛方法创建了一个有效的自学习机制，通过采样的搜索方法使其适用于离散和连续动作空间的环境，并且具有高度的并行化和计算效率优化的能力。与 AlphaZero 相比，SMX 在性能上有显著的提升，并且在连续和离散环境中与顶尖无模型方法相匹配或超越。

Abstract

Developing agents that can leverage planning abilities during their decision and learning processes is critical to the advancement of Artificial Intelligence. Recent works have demonstrated the effectiveness of c

agents planning self-learning scaling challenges smx

发现论文，激发创造

评论家顺序蒙特卡罗

本文介绍了 CriticSMC 算法，结合学习的 Soft-Q 函数启发式因子实现了一种规划为推理的算法。实验表明该算法在高维仿真驾驶任务中显著降低了碰撞率，同时保持了较高的计算效率和真实性。

May, 2022

使用 MCTSnets 学习搜索

该论文提出了一种名为 MCTSnet 的体系架构，其将基于模拟的搜索嵌入神经网络中，并通过向量嵌入扩展，评估和备份。该网络的参数进行端到端的训练优化，应用于小范围的搜索中，显著优于 MCTS 基线的性能。

Feb, 2018

连续蒙特卡罗图搜索

本文提出了 Continuous Monte Carlo Graph Search（CMCGS），一种将 Monte Carlo Tree Search（MCTS）扩展到连续状态和动作空间的在线规划方法，并在 DeepMind Control Suite 基准测试和 2D 导航任务中表现优异。

Oct, 2022

大型部分可观察环境中的顺序计划引导 LLMs

通过结合状态空间搜索和基于自然语言模型的查询，我们提出了一种混合代理方法 neoplanner，以最大化状态值的上界来平衡探索和开发，并通过查询自然语言模型以生成行动计划，进一步提高了大规模状态空间和行动空间的顺序规划的性能。

Dec, 2023

McXai: 两个博弈作为本地模型无关解释

本文介绍一种基于强化学习技术的可解释人工智能方法，称为 McXai，以解释任何黑盒分类模型的决策。该方法使用 Monte Carlo 树搜索对生成解释的过程进行建模，并利用两个游戏来找到支持分类器决策的特征集合和导致替代决策的特征集合。最终呈现为一棵树形结构，每个节点表示一个要研究的特征集，能够找到比 LIME 和 SHAP 更具信息性的特征，并且能够指出误导特征，从而提高黑盒模型的鲁棒性。

Jan, 2022

时间序列结构发现的连续蒙特卡洛学习

该论文介绍了一种自动发现复杂时间序列数据准确模型的新方法，该方法通过贝叶斯非参数先验和符号空间上的高斯过程时间序列模型，以及蒙特卡洛方法和马尔可夫链蒙特卡洛方法的结合进行有效的后验推断。实证测量表明，相比以往的马尔可夫链蒙特卡洛方法和贪心搜索结构学习算法，我们的方法在相同模型族上可以提供 10 倍至 100 倍的运行时间加速。我们将该方法应用于 1,428 个计量经济学数据集的重要基准的首次大规模评估，结果显示我们的方法能够发现合理的模型，在挑战性数据上相比于常用的统计和神经网络模型，可以提供更准确的点预测和区间预测。

Jul, 2023

模拟器上的多样化，Top-k 和 Top-Quality 规划

使用蒙特卡洛树搜索方法来解决无法使用经典规划器解决的问题，并在路径规划问题中演示了该方法可以生成多样化和高质量的计划集合。

Aug, 2023

图形模型的顺序蒙特卡罗方法

通过提出一种新的框架，使用顺序蒙特卡罗方法对概率图模型进行推断，其目的是通过针对辅助分布来逼近概率图模型定义的全联合分布，并用于构建一般 PGM 的高维块采样算法。

Feb, 2014

SMC^2: 一种用于状态空间模型顺序分析的高效算法

本文提出了一种应用于状态空间模型的序贝叶斯推断算法 ——SMC^2 算法，它将粒子滤波器和粒子马尔可夫链蒙特卡洛方法相结合，在 θ 维度上进行粒子重要性采样，并通过重新采样步骤和 MCMC 更新步骤来更新粒子，从而解决了状态空间内，用常规方式无法计算出的条件概率密度增量。

Jan, 2011

蒙特卡洛树搜索：近期修改和应用综述

本文调查了 Monte Carlo Tree Search (MCTS) 在领域特定修改和混合方法方面的应用，这种方法依赖于智能树搜索并平衡探索和利用。

Mar, 2021