在异步深度强化学习中使用蒙特卡罗树搜索作为演示器

AAAINov, 2018

在异步深度强化学习中使用蒙特卡罗树搜索作为演示器

Using Monte Carlo Tree Search as a Demonstrator within Asynchronous Deep RL

Bilal Kartal, Pablo Hernandez-Leal, Matthew E. Taylor

TL;DR本文介绍了一种新的深度强化学习方法 Asynchronous Advantage Actor-Critic (A3C-TP)，并提出一种新的框架，将规划算法和异步分布式深度强化学习方法相结合，相对于传统方法，提高了学习速度和收敛策略的能力。

Abstract

deep reinforcement learning (DRL) has achieved great successes in recent years with the help of novel methods and higher compute power. However, there are still several challenges to be addressed such as convergence to locally optimal policies and long training times. In this paper, fi

deep reinforcement learning asynchronous advantage actor-critic self-supervised auxiliary task monte carlo tree search asynchronous distributed drl

发现论文，激发创造

基于终端预测的深度强化学习辅助任务

本文采用 Terminal Prediction 技术来提高 Asynchronous Advantage Actor-Critic 在 Deep Reinforcement Learning 中的表现，实验结果证明，A3C-TP 在 Atari 游戏和 BipedalWalker 领域中表现优异，而在 Pommerman 领域中，该算法显著提高了学习效率并收敛于更好的策略。

Jul, 2019

强化学习中基于反馈的树搜索

本文提出一种基于模型的强化学习技术，该技术将 Monte-Carlo 树搜索应用于无限期 Marov 决策过程的有限期版本，并使用值函数和策略函数的组合来规定有限期问题的终端条件或决策树的叶节点评估器。作者还提供了第一个基于树搜索的强化学习算法的样本复杂度边界，并证明由深度神经网络实现的技术能够创建一种竞争性人工智能代理。

May, 2018

单智能体优化：通过蒙特卡罗树搜索进行策略迭代

本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法，通过 1）用于潜在无限奖励问题的新颖行动价值规范机制，2）定义虚拟损失函数实现有效搜索并行化，以及 3）由自我对弈逐代训练的策略网络引导搜索，来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验，结果表明我们的算法在多个游戏宽度上优于基准算法，并与公共状态搜索问题的最新算法竞争力相当。

May, 2020

TreeQN 和 ATreeC：用于深度强化学习的可微分树形结构模型

本研究介绍了一种新的基于在线计划的树形结构模型 TreeQN，并且通过在多种游戏环境中的实验表明 TreeQN 和 ATreeC 模型具备优秀的性能。

Oct, 2017

基于 MCTS 的深度强化学习的行动指导

本文研究如何利用非专家演示者的行动指导来提高 Pommerman 多智能体基准环境下稀疏、延迟和可能具有误导性奖励的领域中的样本效率。我们提出了一个新框架，可以在异步分布式深度强化学习方法中集成非专家演示者，即使用 Monte Carlo 树搜索等策略算法，并以两种玩家为例进行测试，相较于纯粹的深度强化学习算法，我们的提出的方法可以更快地学习，并收敛于更好的策略。

Jul, 2019

深度强化学习的辅助任务 —— 代理建模

本文探讨了如何将演员 - 评论家（Actor-Critic）方法在深度强化学习中，尤其是异步优势演员评论家（A3C）与代理建模相结合。我们提出了两种体系结构来执行代理建模，旨在学习其他代理的策略作为辅助任务。在协作和竞争领域的实验结果表明，所提出的体系结构稳定了学习，并在学习期望报酬最佳响应时优于标准 A3C 体系结构。

Jul, 2019

外汇市场多智能体异步分布的交易优化深度强化学习方法

这项研究开创性地应用了多智能体强化学习（MA RL）框架与最先进的异步优势演员 - 评论家（A3C）算法，结果表明此方法可以更广泛和更快地探索不同的货币对，显著提高交易收益。此外，代理可以在较短时间内学习到更有利可图的交易策略。

May, 2024

深度强化学习的异步方法

提出一种使用异步梯度下降法优化深度神经网络控制器的深度强化学习框架，演示了四种标准强化学习算法的异步变体，并表明并行 actor-learner 对训练具有稳定作用。其中最佳表现的方法，即 actor-critic 的异步变体，在 Atari 领域超越了现有的最佳表现，并且仅在单个多核 CPU 上训练一半的时间而不是 GPU。此外，还演示了异步 actor-critic 成功处理了各种连续运动控制问题以及使用视觉输入导航随机 3D 迷宫的新任务。

Feb, 2016

面向目标导向规划的分治蒙特卡罗树搜索

提出了一种名为 DC-MCTS 的计划算法，用于解决目标导向的强化学习问题，该算法通过给出中间子目标来逐步划分初始任务，并独立递归地解决更简单的任务，从而实现改进策略，使规划顺序具有灵活性，得到了在格子世界和各种连续控制环境中的强大表现。

Apr, 2020

在 Minecraft 中使用模型学习和蒙特卡罗树搜索实现的深度强化学习

本文提出了一种基于深度神经网络过渡模型和蒙特卡罗树搜索相结合的模型方法，该方法用于解决在 Minecraft 中进行方块放置任务。实验结果表明，该方法可以快速学习且更具训练样本的效率，性能与深度 Q 网络的性能相当。

Mar, 2018