M-Walk: 使用蒙特卡罗树搜索学习在图上行走

Feb, 2018

M-Walk: 使用蒙特卡罗树搜索学习在图上行走

M-Walk: Learning to Walk over Graphs using Monte Carlo Tree Search

Yelong Shen, Jianshu Chen, Po-Sen Huang, Yuqing Guo, Jianfeng Gao

TL;DR通过开发 M-Walk 这样一种能够在存在稀疏奖励情况下有效训练的图行走代理，利用深度循环神经网络和 Monte Carlo Tree Search 算法，结合神经策略与 Q 值，用 Q-Learning 进行无模拟训练，最终在多个图行走基准测试中展现出远优于其他基于策略梯度的强化学习方法的性能，解决了知识库补全等实际应用中遇到的问题。

Abstract

Learning to walk over a graph towards a target node for a given query and a source node is an important problem in applications such as knowledge base completion (KBC). It can be formulated as a reinforcement learning (RL) problem with a known state transition model. To overcome the ch

graph-walking agent reinforcement learning monte carlo tree search knowledge base completion sparse rewards

发现论文，激发创造

高速公路图在强化学习中的加速

为了提高 RL 算法的训练效率，本研究基于高速公路图的观察，提出了一种新颖的图结构，用于模拟状态转换，将 RL 训练在早期阶段显著加速，并在性能上优于其他无模型和带模型的 RL 算法。同时，基于高速公路图训练的深度神经网络代理具有更好的泛化性能和更低的存储成本。

May, 2024

半监督分类的循环注意漫步

本文使用基于图的半监督学习方法对带属性节点进行分类。通过提出图游走的策略，使用强化学习来实现分类器的最大化精度，使得该方法能够灵活应对不同的归纳或传导学习任务，并且在四种数据集上测试结果表明，该方法胜过当前多种方法。

Oct, 2019

强化学习中基于反馈的树搜索

本文提出一种基于模型的强化学习技术，该技术将 Monte-Carlo 树搜索应用于无限期 Marov 决策过程的有限期版本，并使用值函数和策略函数的组合来规定有限期问题的终端条件或决策树的叶节点评估器。作者还提供了第一个基于树搜索的强化学习算法的样本复杂度边界，并证明由深度神经网络实现的技术能够创建一种竞争性人工智能代理。

May, 2018

使用 MCTSnets 学习搜索

该论文提出了一种名为 MCTSnet 的体系架构，其将基于模拟的搜索嵌入神经网络中，并通过向量嵌入扩展，评估和备份。该网络的参数进行端到端的训练优化，应用于小范围的搜索中，显著优于 MCTS 基线的性能。

Feb, 2018

走随机漫步：学习在没有监管的情况下发现和实现目标

提出一种新颖的方法，使用随机漫步训练到达网络以预测环境中两个状态的相似性，并使用得到的到达网络构建目标存储器，最终训练了一个有能力到达任何给定状态的目标条件代理，应用于连续控制导航和机器人控制任务。

Jun, 2022

学习即规划：通过蒙特卡罗树搜索实现接近 Bayes 最优强化学习

使用前向搜索稀疏采样算法（FSSS）可以实现接近 Bayes 最优行为，从而使用 Monte-Carlo 树搜索算法有效地处理状态空间极大或无限大的马尔可夫决策过程（MDPs）。

Feb, 2012

单智能体优化：通过蒙特卡罗树搜索进行策略迭代

本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法，通过 1）用于潜在无限奖励问题的新颖行动价值规范机制，2）定义虚拟损失函数实现有效搜索并行化，以及 3）由自我对弈逐代训练的策略网络引导搜索，来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验，结果表明我们的算法在多个游戏宽度上优于基准算法，并与公共状态搜索问题的最新算法竞争力相当。

May, 2020

多代理路径规划的蒙特卡洛树搜索：初步结果

研究了多智能体路径规划中如何利用蒙特卡洛树搜索（Monte-Carlo Tree Search）解决问题，提出了一种适用于多智能体路径规划的改进 MCTS 变种，通过计算个体路径和奖励来指导搜索过程，实验证明该方法优于基线规划算法。

Jul, 2023

在公园散步：学习无模型强化学习在 20 分钟内行走

研究展示了在现实世界中通过深度强化学习和机器学习算法，结合先进的机器人控制器，可以在仅 20 分钟内在多个室内和户外地形上学习四足动物的步态，以及对于设计决策的模拟环境评估。

Aug, 2022

数据高效的疟疾控制强化学习

本文介绍了一种名为 Variance-Bonus Monte Carlo Tree Search (VB-MCTS) 的实用、数据效率高的策略学习方法，它是一种基于模型的强化学习方法，应用高斯过程回归估计转变，提出了一种方差奖励来衡量对世界的不确定性，进一步优化了计划，得到了更有效的探究，综合实验结果表明，在困难的疟疾控制任务上，VB-MCTS 优于现有技术。

May, 2021