模型自由规划的研究

Jan, 2019

An investigation of model-free planning

Arthur Guez, Mehdi Mirza, Karol Gregor, Rishabh Kabra, Sébastien Racanière...

TL;DR通过模型自由的深度神经网络结构，套用归纳偏差这一概念，成功实现了能够规划的强化学习智能体，并在不同领域有着较高的泛化能力和高效性。

Abstract

The field of reinforcement learning (RL) is facing increasingly challenging domains with combinatorial complexity. For an RL agent to address these challenges, it is essential that it can plan effectively. Prior work has typically utilized an explicit model of the environment, combined

reinforcement learning model-free approach planning inductive bias neural network

发现论文，激发创造

基于目标条件策略的规划

本文提出了一种结合规划方法和强化学习的方法，利用强化学习学习目标驱动策略，从而让规划方法更好地实现任务；同时利用一个潜在变量模型来简洁地表示规划中的有效状态，从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。

Nov, 2019

面向能适应非结构化数据的无模型强化学习算法的发展

强化学习算法在尺度递增和非结构化观测方面表现良好的方法，能够有效利用外部知识构建预测结构，并提供环境和算法供研究无结构观测向量和平面动作空间的缩放问题。

Nov, 2023

论规划在基于模型的深度强化学习中的作用

本文研究了 MuZero，一种先进的模型基强化学习算法在控制任务、Atari 游戏和 9x9 围棋等多种环境下的表现，阐述了规划在强化学习中的作用，以及如何在规划过程中优化算法，提高表现，并指出单独采用规划无法实现强的泛化能力。

Nov, 2020

强化学习方法之间的效率分离：无模型、基于模型和目标条件

我们证明了强化学习算法（包括无模型及基于模型的方法）的效率存在一个基本限制，其与环境进行交互寻找最优行为的过程在某类强化学习问题中具有指数级的下界；然而，存在一种对该类问题具有高效解决能力的方法，而该方法并非专门针对该类问题设计；与此相反，我们的限制并不适用于文献中提出的某些方法，例如，以目标为条件的方法或其他构建逆动力学模型的算法。

Sep, 2023

使用随机特征的自监督强化学习转移

通过在模型自由学习算法中引入自我监督学习的方法，使其能够实现任务转移；该方法是有监督的，可以在没有奖励标签的情况下进行训练，并且可以快速地部署到新任务中。

May, 2023

强化学习中的无模型主动探索

采用信息论的观点，我们研究强化学习中的探索问题，并提出了一种新颖的无模型解决方案，通过推导实例特定的下界以及最优的探索策略，我们衍生出一种基于集成模型的无模型探索策略，适用于表格和连续马可夫决策过程，数值结果表明我们的策略能够比最先进的探索方法更快地找到高效的策略。

Jun, 2024

基于模型的离线规划

提出一种基于模型的离线学习算法 (MBOP)，其可以通过规划直接控制系统。该算法在一系列机器人任务中表现出良好性能，并能够创建零 - shot 目标条件策略。

Aug, 2020

基于模型内在动机的离策略学习与主动在线探索

通过引入预测模型和离线学习元素，结合一个实用性较高的终端价值函数，本文研究了如何在连续控制任务中实现样本高效的探索能力。通过利用潜在状态空间内的前向预测误差，我们得出了一种不引入额外参数的固有奖励。该奖励与模型不确定性有强烈的关联，使得智能体能够有效地克服渐进性能差距。通过广泛的实验证明，我们的方法在与以往工作的比较中表现出有竞争力的甚至更优异的性能，尤其是在稀疏奖励的情况下。

Mar, 2024

城市自主驾驶的无模型深度强化学习

本文提出了一个在复杂城市自主驾驶场景下使用无模型深度强化学习的框架，并在高清晰度驾驶模拟器中进行了验证。结果表明，与基线相比，我们的方法可以很好地解决任务，且表现显著优异。

Apr, 2019

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018