在少数无奖励部署中学习通用世界模型

Oct, 2022

在少数无奖励部署中学习通用世界模型

Learning General World Models in a Handful of Reward-Free Deployments

Yingchen Xu, Jack Parker-Holder, Aldo Pacchiano, Philip J. Ball, Oleh Rybkin...

TL;DR在深度强化学习中，为了建立通用型智能体，需要实现两个关键的条件：探索是任务无关的，探索策略能够在无需重新训练的情况下收集大量数据。本文提出了一种新的强化学习范式 —— 无奖励部署效率设置，并在此基础上介绍了 CASCADE 算法，通过一种信息论的目标函数设计，最大化智能体群体采样轨迹的多样性，收集通用 - 无任务限制数据集，学习世界模型，并实现了零样本泛化到 Atari，MiniGrid，Crafter 和 DM Control Suite 等新型任务。

Abstract

Building generally capable agents is a grand challenge for deep reinforcement learning (RL). To approach this challenge practically, we outline two key desiderata: 1) to facilitate generalization, exploration should be task agnostic; 2) to facilitate scalability, exploration policies s

deep reinforcement learning exploration policies self-supervised exploration world model zero-shot generalization

发现论文，激发创造

训练鲁棒性世界模型的无奖励课程

本文提出了一种名为 WAKER 的基于 minimax 遗憾目标的算法，可在 reward-free 环境下有效地学习鲁棒的世界模型，以提高不同环境下的机器人性能。

Jun, 2023

部署期间的自监督政策适应

本文旨在研究如何在不同的环境之间进行强化学习模型的泛化，通过自我监督的方法实现模型的持续学习并在 36 个环境中的 31 个上实现了显著的改进，这些环境包括来自 DeepMind 控制套件和 ViZDoom 的多样的仿真环境以及实际机器人操作任务中的连续变化的环境。

Jul, 2020

世界模型

本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Mar, 2018

使用随机特征的自监督强化学习转移

通过在模型自由学习算法中引入自我监督学习的方法，使其能够实现任务转移；该方法是有监督的，可以在没有奖励标签的情况下进行训练，并且可以快速地部署到新任务中。

May, 2023

使用自监督的世界模型进行规程泛化

在本文中，我们评估了 MuZero 代理在程序化和任务通用性方面的性能，并通过比较自由模型代理，确定了模型代理的泛化能力。我们发现，计划、自监督表示学习和程序数据多样性是程序化通用性的三个因素，并表明结合这些技术可以实现出色的通用性性能和数据效率。然而，我们发现这些因素不总是为 Meta-World 中的任务通用性基准提供相同的好处。

Nov, 2021

基于结构化世界模型的好奇探索实现零样本物体操作

使用结构化世界模型的内在动机强化学习算法，实现了多物体环境中的高效探索以及零样本泛化，可以完成像堆叠、翻转、拿起、投掷等任务。

Jun, 2022

强化学习中勘探对泛化的重要性

基于探索的深度强化学习方法对新环境具有良好的泛化能力，通过使用一种基于 Q 值分布集合的探索方法，该算法在 Procgen 和 Crafter 两个高维强化学习一般化基准上取得了最新的进展。

Jun, 2023

通过自监督世界模型规划探索

Plan2Explore 是一种无须任务特定交互且能够通过自监督探索和快速适应新任务的强化学习机器人，利用计划来探求未来预期的新颖性并在零次或少次学习中快速适应新任务。

May, 2020

数据收集对于训练通用目标达成策略的重要性

本文提出了一个基于无监督探索方法的机器人学习模型 ChronoGEM，以能够均匀涵盖可能状态空间为目标。研究了数据量和数据质量对训练通用控制器的影响，并证明数据量和数据质量对于训练高精度达成目标的策略至关重要，以达到各种连续控制情况下的高保真姿势达成。

Nov, 2022

Powderworld: 通过丰富的任务分布了解泛化的平台

本研究自主研发了一款轻量级 GPU 仿真环境 Powderworld，提供多样化的任务空间，旨在通过提供源自相同核心规则的多样化任务来支持对泛化扩展的研究，实验证明增加环境复杂性可改善世界模型和某些强化学习代理的泛化，但可能会抑制高方差环境下的学习。

Nov, 2022