通过自监督世界模型规划探索

ICMLMay, 2020

Planning to Explore via Self-Supervised World Models

Ramanan Sekar, Oleh Rybkin, Kostas Daniilidis, Pieter Abbeel, Danijar Hafner...

TL;DRPlan2Explore 是一种无须任务特定交互且能够通过自监督探索和快速适应新任务的强化学习机器人，利用计划来探求未来预期的新颖性并在零次或少次学习中快速适应新任务。

Abstract

reinforcement learning allows solving complex tasks, however, the learning tends to be task-specific and the sample efficiency remains a challenge. We present Plan2Explore, a self-supervised reinforcement learning

reinforcement learning self-supervised exploration fast adaptation planning zero or few-shot learning

发现论文，激发创造

Plan2Vec: 通过潜在规划实现非监督表示学习

本文介绍了一种无监督学习的方法 ——plan2vec。通过对图像数据集进行加权图构建，利用路径积分将局部信息转化为全局的 embedding，并在长时间轨迹规划的目标值估计上具有高效性和准确性，可行性实验结果表明 plan2vec 能够将规划成本有效地摊销，实现线性时空复杂度的反应式路径规划。

May, 2020

使用随机特征的自监督强化学习转移

通过在模型自由学习算法中引入自我监督学习的方法，使其能够实现任务转移；该方法是有监督的，可以在没有奖励标签的情况下进行训练，并且可以快速地部署到新任务中。

May, 2023

从游戏中学习潜在计划

该论文提出了基于自我监督控制和玩耍数据的方法来扩大技能学习，结合自我监督控制和多样性玩耍数据集，实现了对环境中所有可用行为的连续学习，取得了在机器人桌面环境中 18 项视觉操作任务上的显著表现，同时表现出更强的抗干扰能力和重试成功的行为。

Mar, 2019

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022

使用自监督的世界模型进行规程泛化

在本文中，我们评估了 MuZero 代理在程序化和任务通用性方面的性能，并通过比较自由模型代理，确定了模型代理的泛化能力。我们发现，计划、自监督表示学习和程序数据多样性是程序化通用性的三个因素，并表明结合这些技术可以实现出色的通用性性能和数据效率。然而，我们发现这些因素不总是为 Meta-World 中的任务通用性基准提供相同的好处。

Nov, 2021

无监督模型预训练：从像素到高效控制

本文提出了一种基于无监督 RL 策略的数据高效视觉控制的方法，通过使用 Dyna-MPC 等组件的预训练来实现更快的任务适应，并且在大规模实证研究的基础上建立了一种强化学习方法，可以使无监督设计策略的性能大大提高。

Sep, 2022

带不确定性的规划：模型基强化学习中的深度探索

本文研究了深度模型与强化学习中的样本效率问题。通过将认知不确定性引入到计划树中，规避了标准方法的不确定性传播，并通过 MuZero 算法进行了评估验证。实验结果表明，可以通过不确定性规划实现有效的深度探索，从而显著提高样本效率。

Oct, 2022

基于结构化世界模型的好奇探索实现零样本物体操作

使用结构化世界模型的内在动机强化学习算法，实现了多物体环境中的高效探索以及零样本泛化，可以完成像堆叠、翻转、拿起、投掷等任务。

Jun, 2022

Plan4MC：针对开放世界 Minecraft 任务的技能强化学习和规划

在 Minecraft 环境中，我们使用强化学习技术训练多任务代理，将任务分解成学习基本技能和规划技能这两个步骤，通过提出三种细粒度的基本技能，搭配内在奖励机制使用强化学习训练代理，在学会技能后，我们使用大型语言模型建立技能图模型，并提出技能搜索算法为代理生成适当的技能计划。在实验中，我们成功的完成了 24 个不同的 Minecraft 任务，并得到了比基线算法更好的表现。

Mar, 2023

通过调整规划模型学习在开放世界中的操作

在开放世界中，我们介绍了一个适应新颖性的规划领域模型的方法，通过检测行动执行的观察值和环境模型的预期值之间的差异来推断新颖性的存在，并通过启发式导向的模型改变搜索来修订模型。我们在标准的强化学习基准 CartPole 问题上进行实证评估，结果表明我们的方法可以快速且可解释地处理一类新颖性。

Mar, 2023