强化学习中基于反馈的树搜索

ICMLMay, 2018

Feedback-Based Tree Search for Reinforcement Learning

Daniel R. Jiang, Emmanuel Ekwedike, Han Liu

TL;DR本文提出一种基于模型的强化学习技术，该技术将 Monte-Carlo 树搜索应用于无限期 Marov 决策过程的有限期版本，并使用值函数和策略函数的组合来规定有限期问题的终端条件或决策树的叶节点评估器。作者还提供了第一个基于树搜索的强化学习算法的样本复杂度边界，并证明由深度神经网络实现的技术能够创建一种竞争性人工智能代理。

Abstract

Inspired by recent successes of monte-carlo tree search (MCTS) in a number of artificial intelligence (AI) application domains, we propose a model-based reinforcement learning (RL) technique that iteratively applies MCTS on batches of small, finite-horizon versions of the original infi

monte-carlo tree search model-based reinforcement learning markov decision process value function neural network

发现论文，激发创造

学习即规划：通过蒙特卡罗树搜索实现接近 Bayes 最优强化学习

使用前向搜索稀疏采样算法（FSSS）可以实现接近 Bayes 最优行为，从而使用 Monte-Carlo 树搜索算法有效地处理状态空间极大或无限大的马尔可夫决策过程（MDPs）。

Feb, 2012

单智能体优化：通过蒙特卡罗树搜索进行策略迭代

本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法，通过 1）用于潜在无限奖励问题的新颖行动价值规范机制，2）定义虚拟损失函数实现有效搜索并行化，以及 3）由自我对弈逐代训练的策略网络引导搜索，来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验，结果表明我们的算法在多个游戏宽度上优于基准算法，并与公共状态搜索问题的最新算法竞争力相当。

May, 2020

一种高效的动态采样策略用于蒙特卡洛树搜索

本文探讨在有限时间马尔可夫决策过程的框架下，基于树形搜索策略的蒙特卡罗树搜索 (MCTS)。提出了一种动态抽样树策略，有效地分配有限的计算预算，以最大化选择最佳根节点动作的正确性概率。实验结果表明，所提出的树策略比其他竞争方法更有效。

Apr, 2022

风险感知和多目标强化学习的蒙特卡罗树搜索算法

本文提出了两种基于蒙特卡罗树搜索的算法，能够针对非线性效用函数计算风险意识和多目标环境下的回报策略，并考虑累计回报，同时，这两个算法在多目标强化学习中，预期回报的表现超越了现有的最优算法。

Nov, 2022

在异步深度强化学习中使用蒙特卡罗树搜索作为演示器

本文介绍了一种新的深度强化学习方法 Asynchronous Advantage Actor-Critic (A3C-TP)，并提出一种新的框架，将规划算法和异步分布式深度强化学习方法相结合，相对于传统方法，提高了学习速度和收敛策略的能力。

Nov, 2018

ReST-MCTS*: LLM 自训练通过过程奖励引导的树搜索

基于强化学习的 ReST-MCTS* 方法结合过程奖励模型与树搜索 MCTS*，获取高质量的推理轨迹用于训练策略和奖励模型，在 LLM 自我训练中取得了更高的准确性和性能。

Jun, 2024

支持向量机中节点选择的强化学习

使用一种新颖的双模拟技术，通过强化学习模型从整个树状态中选择节点，借助图神经网络生成基于路径的概率分布，将节点选择建模为概率分布，训练模型以实现高质量的节点选择策略，并在严格时间约束下，在多个基准测试中显示出显著的性能改进。

Sep, 2023

TreeDQN：学习最小化分枝定界树

本文介绍了一种基于强化学习的组合优化问题解决方法，使用树马尔可夫决策过程视角选择变量分支，并且优化学习对象，相较之前的强化学习方法，训练数据量更小，生成树的大小更小。

Jun, 2023

面向目标导向规划的分治蒙特卡罗树搜索

提出了一种名为 DC-MCTS 的计划算法，用于解决目标导向的强化学习问题，该算法通过给出中间子目标来逐步划分初始任务，并独立递归地解决更简单的任务，从而实现改进策略，使规划顺序具有灵活性，得到了在格子世界和各种连续控制环境中的强大表现。

Apr, 2020

如何在强化学习中结合树搜索方法

研究了强化学习中的有限时间先见策略，提出使用树路径回报备份根节点后代的值来增强现有方法，以解决值函数传播不收缩的问题。

Sep, 2018