基于 MCTS 的深度强化学习的行动指导

AAAIJul, 2019

基于 MCTS 的深度强化学习的行动指导

Action Guidance with MCTS for Deep Reinforcement Learning

Bilal Kartal, Pablo Hernandez-Leal, Matthew E. Taylor

TL;DR本文研究如何利用非专家演示者的行动指导来提高 Pommerman 多智能体基准环境下稀疏、延迟和可能具有误导性奖励的领域中的样本效率。我们提出了一个新框架，可以在异步分布式深度强化学习方法中集成非专家演示者，即使用 Monte Carlo 树搜索等策略算法，并以两种玩家为例进行测试，相较于纯粹的深度强化学习算法，我们的提出的方法可以更快地学习，并收敛于更好的策略。

Abstract

deep reinforcement learning has achieved great successes in recent years, however, one main challenge is the sample inefficiency. In this paper, we focus on how to use action guidance by means of a non-expert dem

deep reinforcement learning action guidance sample efficiency multi-agent benchmark pommerman

发现论文，激发创造

使用浅层 MCTS 增强 Pommerman 中的深度 RL 安全性探究

本文研究如何使用非专业演示者的行动指导来避免稀疏、延迟和具有欺骗性的奖励域中的灾难性事件，并提出了一种新的框架将计划算法与异步分布式深度强化学习方法相结合，相比传统的深度强化学习算法，提高了学习速度并收敛到更好的策略。

Apr, 2019

在异步深度强化学习中使用蒙特卡罗树搜索作为演示器

本文介绍了一种新的深度强化学习方法 Asynchronous Advantage Actor-Critic (A3C-TP)，并提出一种新的框架，将规划算法和异步分布式深度强化学习方法相结合，相对于传统方法，提高了学习速度和收敛策略的能力。

Nov, 2018

关于强化学习中的困难探索：Pommerman 的案例研究

本研究研究了如何在具有稀疏、延迟和欺骗性回报的域中进行最佳探索，通过分析 Pommerman 的难度，提出了一种基于模型的自动推理模块，可以用于更安全的探索，通过实验证明了该模块可以显著提高学习效果。

Jul, 2019

来自真实多智能体演示的强化学习中的自适应动作监督

本文提出了一种自适应动作监督的 RL 方法，通过动态时间规整的最小距离选择 RL 真实世界演示中的动作，使得 RL 模型能够在网络空间获得回报

May, 2023

MoDem: 利用演示加速视觉基于模型的强化学习

利用演示可以显著提高模型学习效率，在这项工作中，我们确定了利用演示进行模型学习的关键因素，即策略预训练，有针对性的探索和演示数据的过采样，这三个阶段构成了我们的基于模型的 RL 框架。

Dec, 2022

基于轨迹的球迷宫游戏学习

本研究介绍了一种简单的方法来应用轨迹学习方法，以增加深度强化学习方法的样本效率，该方法应用于文献中最近引入的具有挑战性的球迷宫游戏，并展示了通过使用模拟器为模型生成有限数量的轨迹，可以在不使用人工生成轨迹的情况下，获得约 2-3 倍的学习加速度，同时讨论了在使用基于轨迹的学习处理非常稀疏的奖励函数时面临的一些挑战。

Nov, 2018

使用动作建议优化 Minecraft 中的深度强化学习

使用交互式机器学习可以帮助训练具有复杂行为的深度强化学习智能体，但需要在人类教师的努力和代理性能之间实现平衡。本研究探讨了两种强化学习算法在具有视觉混淆的情况下，通过人类动作建议来提高代理性能、评估动作建议类型的潜在认知负荷以及提高训练效率和抵御错误建议的能力。

Aug, 2019

利用演示克服强化学习中的探索问题

本研究利用示范来解决强化学习中稀疏奖励的探索问题，成功地学习了长期、多步骤的机器人任务，方法使用了 DDPG 和 HER 算法，提供了一种在仿真机器人任务上比以往 RL 算法快一个数量级的加速，方法易于实现，能够解决在行为克隆和 RL 算法中都无法解决的任务，并且往往表现优于示范策略。

Sep, 2017

在 3D 游戏中使用并行动作的模仿学习

本文介绍了一种新颖的深度强化学习架构，其中利用了多动作策略来提高训练效率和性能，并结合了模仿学习和时序差分强化学习来快速训练视觉系统。

Mar, 2018

深度强化学习的方法论建议收集和重用

使用强化学习结合深度神经网络在 Atari 游戏上进行研究，提出使用另一个神经网络计算不确定度的方法来指导行动建议，结果表明双重不确定度可提高学习性能。

Apr, 2022