- 通过想象力、搜索和批评实现 LLM 的自我提升
AlphaLLM 通过将 Monte Carlo Tree Search (MCTS) 与 LLMs 集成,建立了一个自我改进循环,从而提高了 LLMs 的能力,同时避免了其他额外的注释,实验结果表明 AlphaLLM 显著提高了 LLMs - 蒙特卡洛搜索算法 探索蒙特卡洛树搜索 探索术语
本文提出使用蒙特卡罗搜索设计数学表达式作为蒙特卡罗树搜索算法的探索项,优化了 PUCT 和 SHUSS 树搜索算法的根探索项,使得在小型搜索预算下,这些发现的根探索项使得两种算法与常规的 PUCT 算法有竞争力。
- 使用汤普森抽样在线学习决策树
决策树在可解释的机器学习中是重要的预测模型,本文介绍了一种新的蒙特卡洛树搜索算法 (TSDT),在在线环境中通过汤普森抽样来产生最优的决策树,并经过实验证明该算法在几个基准测试中表现优于现有算法,并具有适用于在线环境的实际优势。
- 思维雕塑:通过中间修订和搜索进行推理
THOUGHTSCULPT 是一种通用的推理和搜索方法,采用蒙特卡洛树搜索(Monte Carlo Tree Search)来构建解决方案,其中的行动空间包括修订操作,并在三个具有挑战性的任务中表现优于现有的推理方法。
- 最佳响应塑造
在部分竞争环境中,我们研究了多智能体深度强化学习的挑战,传统方法难以促进基于互惠合作的行为。为解决现有技术中的局限性,我们提出了一种新的方法 —— 最佳回应塑造(BRS),通过对手的求解最佳回应进行差分学习。利用基于问题回答的方法提取智能体 - 基于强化学习的 MCTS 路径规划在自动停车中的加速
通过将强化学习与蒙特卡洛树搜索相结合,我们提出了一种方法来增强完全可观察环境下自动停车任务的在线路径规划。通过先前的搜索步骤中综合利用先前的知识,状态评估方法对于在高维空间下的基于采样的规划方法可以提高实时系统中的计算效率。在复杂环境下执行 - 达芬奇密码游戏策略模拟的蒙特卡罗树搜索算法的开发与应用
通过比较分析基于 CPU 和 GPU 的 MCTS 算法在分支分歧情况下的性能,我们发现 CPU 实现呈线性改进趋势,而 GPU 实现呈现出非线性的增强模式和明显的性能下降。这些发现对于优化并行计算架构上的游戏策略算法具有重要的考虑价值。
- 组合优化中基于模拟树搜索的辅助代理算法
通过使用辅助模型快速计算评估的蒙特卡洛树搜索(MCTS),可以更快地生成解决方案,同时与不使用辅助模型的 MCTS 相比保持一致的解决方案。
- 量子比特逐比特的可变量量子电路架构搜索方法
在本文中,我们提出了一种新颖的量子位架构搜索(QWAS)方法,通过将搜索空间划分为好的和坏的子区域,逐步搜索每个阶段的单量子位配置,并结合蒙特卡洛树搜索算法,在某些真实任务(如 MNIST,Fashion 和 MOSI)中平衡电路性能和大小 - PhyPlan:机器人操纵器的组合和自适应物理任务推理基于物理信息的技能网络
该论文介绍了 PhyPlan,一个物理信息规划框架,它结合了物理信息神经网络(PINNs)和改进的蒙特卡洛树搜索(MCTS),使具有动态物理任务执行能力的代理人能够进行位置规划,并解决包括动态技能组合的三维物理推理任务。
- 基于大型语言模型和蒙特卡洛树搜索的多步骤合成验证
使用蒙特卡洛树搜索指导大型语言模型生成在 Dafny、Lean 和 Coq 中验证的程序的方法,该方法称为 VMCTS,在组合 LLM 先验知识和验证器反馈的情况下,提高了开源模型的综合能力,在五个验证编程问题中,VMCTS 以 6 分钟内 - TransAxx: 高效逼近计算的 Transformer
本研究使用 Vision Transformer 模型结合近似计算方法分析了在低功耗设备上实现 Transformer 模型的计算要求和性能之间的折衷,并提出了使用蒙特卡洛树搜索算法生成 Vision Transformer 模型的近似加速 - 分层分阶蒙特卡洛树搜索用于 SMT 策略合成
通过采用基于蒙特卡罗树搜索(MCTS)的新方法,我们解决了自动 SMT 策略合成的问题,使得 Z3alpha 相比于状态 - of-the-art 的 SMT 解析工具 FastSMT,Z3 解析器和 CVC5 解析器,在大多数基准测试中都 - 通过 GPT 引导的蒙特卡罗树搜索从数据中发现数学公式
SR-GPT 是一种新的符号回归算法,通过将 MCTS 与 GPT 相结合,显著提高了 MCTS 的搜索效率,并利用 MCTS 结果进一步完善 GPT,从而在正确恢复符号表达式方面优于现有的最先进算法。
- AlphaMapleSAT: 一种基于 MCTS 的 Cube-and-Conquer SAT 求解器用于困难组合问题
介绍了 AlphaMapleSAT,一种新颖的基于蒙特卡罗树搜索 (MCTS) 的 Cube-and-Conquer (CnC) SAT 求解方法,旨在高效地解决具有挑战性的组合问题。
- DoraemonGPT: 面向理解动态场景的大型语言模型
通过大型语言模型驱动的 DoraemonGPT 系统,我们能够处理动态视频任务,利用空间 - 时间查询和推理工具进行简洁而相关的中间结果,同时通过蒙特卡洛树搜索驱动的规划器高效探索大规模计划空间,并以多种解决方案总结出改进的最终答案。在各种 - 蒙特卡洛树搜索用于使用 GPT-2 生成菜谱
使用 GPT-2 和 Monte Carlo Tree Search(MCTS)的文本生成方法 RecipeMC,通过定义奖励函数,可以带有软约束地生成可信的食谱,与其他基线方法相比,人类评估者更喜欢使用 RecipeMC 生成的食谱。
- 非凸优化的采样与界限
用采样方法改进蒙特卡洛树搜索来实现全局非凸函数优化,避免传统分区树方法在高维情况下指数级增长的树规模,通过利用数值上估计的目标不确定性指标、采样估计的一阶和二阶信息,并且避免传统固定组合模式,快速高效地发现有潜力的区域,有效平衡探索与开发。 - 解决四类 SAT 问题的通用方法
该研究提出了一种基于整数规划和强化学习算法的统一框架 DCSAT,用于解决不同类型的布尔可满足性问题,包括 MaxSAT、Weighted MaxSAT、PMS 和 WPMS 等。通过调整目标函数系数,构建了统一的整数规划表示方法,并基于 - AAAI分布式蒙特卡洛树搜索用于部分可观察多智体路径规划
我们提出了一种基于分布式多智能体蒙特卡罗树搜索方法的多智能体路径规划算法,通过利用智能体的观察结果重新创建内在的马尔科夫决策过程,并结合针对多智能体任务的定制化神经蒙特卡罗树搜索算法进行路径规划,实验证明该方法优于现有的学习型多智能体路径规