论规划在基于模型的深度强化学习中的作用

ICLRNov, 2020

论规划在基于模型的深度强化学习中的作用

On the role of planning in model-based deep reinforcement learning

Jessica B. Hamrick, Abram L. Friesen, Feryal Behbahani, Arthur Guez, Fabio Viola...

TL;DR本文研究了 MuZero，一种先进的模型基强化学习算法在控制任务、Atari 游戏和 9x9 围棋等多种环境下的表现，阐述了规划在强化学习中的作用，以及如何在规划过程中优化算法，提高表现，并指出单独采用规划无法实现强的泛化能力。

Abstract

Model-based planning is often thought to be necessary for deep, careful reasoning and generalization in artificial agents. While recent successes of →

model-based reinforcement learning planning generalization muzero monte-carlo rollouts

发现论文，激发创造

带不确定性的规划：模型基强化学习中的深度探索

本文研究了深度模型与强化学习中的样本效率问题。通过将认知不确定性引入到计划树中，规避了标准方法的不确定性传播，并通过 MuZero 算法进行了评估验证。实验结果表明，可以通过不确定性规划实现有效的深度探索，从而显著提高样本效率。

Oct, 2022

模型自由规划的研究

通过模型自由的深度神经网络结构，套用归纳偏差这一概念，成功实现了能够规划的强化学习智能体，并在不同领域有着较高的泛化能力和高效性。

Jan, 2019

基于模型的强化学习的自我纠正模型

本文从理论角度分析了 Hallucinated Replay 方法在模型有误的情况下的强化学习效果，提出了一种新的误差界，利用这种方法使确定性 MDPs 的强化学习算法更具有鲁棒性和性能保证。

Dec, 2016

高效的多智能体强化学习规划

多智能体强化学习算法（MARL）通过采取模型化方法来提高样本效率并在多个任务中表现出可比或更好的性能。

May, 2024

使用自监督的世界模型进行规程泛化

在本文中，我们评估了 MuZero 代理在程序化和任务通用性方面的性能，并通过比较自由模型代理，确定了模型代理的泛化能力。我们发现，计划、自监督表示学习和程序数据多样性是程序化通用性的三个因素，并表明结合这些技术可以实现出色的通用性性能和数据效率。然而，我们发现这些因素不总是为 Meta-World 中的任务通用性基准提供相同的好处。

Nov, 2021

模型基强化学习中决策时间与背景规划的理解

本研究旨在理解在需要快速响应的领域中，决策时间规划和背景规划哪一种规划方式在何种条件和哪种设置下表现更好。经过数理分析和实验验证，本研究发现，尽管在传统实例下，决策时间规划的表现不如背景规划，但在现代实例的规划和学习以及迁移学习领域中，决策时间规划可以表现得与或更好。

Jun, 2022

基于模型的前瞻性强化学习

本论文结合模型推理控制与模型无关的深度强化学习方法，提出一种更加高效的学习框架，并在标准的连续控制基准任务中取得了与模型无关方法相当的性能表现。

Aug, 2019

基于目标条件策略的规划

本文提出了一种结合规划方法和强化学习的方法，利用强化学习学习目标驱动策略，从而让规划方法更好地实现任务；同时利用一个潜在变量模型来简洁地表示规划中的有效状态，从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。

Nov, 2019

MuZero 学习的模型是什么？

本文介绍了一种名为 MuZero 的深度模型强化学习算法，研究其深度学习模型的学习目标和用于策略改进的实用性，结果表明 MuZero 所学模型不能有效地推广到评估未知的策略，这限制了我们使用该模型进行计划进一步改善当前策略的程度。

Jun, 2023

面向策略梯度方法的策略感知模型学习

本文研究了模型基强化学习中模型的学习，提出了基于 Policy-Aware Model Learning (PAML) 的带权损失函数来学习模型，结果证明该方法在某些基准问题上表现良好。

Feb, 2020