使用自监督的世界模型进行规程泛化

Nov, 2021

使用自监督的世界模型进行规程泛化

Procedural Generalization by Planning with Self-Supervised World Models

Ankesh Anand, Jacob Walker, Yazhe Li, Eszter Vértes, Julian Schrittwieser...

TL;DR在本文中，我们评估了 MuZero 代理在程序化和任务通用性方面的性能，并通过比较自由模型代理，确定了模型代理的泛化能力。我们发现，计划、自监督表示学习和程序数据多样性是程序化通用性的三个因素，并表明结合这些技术可以实现出色的通用性性能和数据效率。然而，我们发现这些因素不总是为 Meta-World 中的任务通用性基准提供相同的好处。

Abstract

One of the key promises of model-based reinforcement learning is the ability to generalize using an internal model of the world to make predictions in novel environments and tasks. However, the generalization ability

model-based reinforcement learning generalization ability muzero procedural generalization task generalization

发现论文，激发创造

使用随机特征的自监督强化学习转移

通过在模型自由学习算法中引入自我监督学习的方法，使其能够实现任务转移；该方法是有监督的，可以在没有奖励标签的情况下进行训练，并且可以快速地部署到新任务中。

May, 2023

等变 MuZero

本文提出一种改进 MuZero 强化学习算法的方法，通过将环境的对称性显式地纳入其世界模型架构，既提高了数据效率，又提高了泛化能力，并在 MiniPacman 和 Chaser 上进行测试。

Feb, 2023

论规划在基于模型的深度强化学习中的作用

本文研究了 MuZero，一种先进的模型基强化学习算法在控制任务、Atari 游戏和 9x9 围棋等多种环境下的表现，阐述了规划在强化学习中的作用，以及如何在规划过程中优化算法，提高表现，并指出单独采用规划无法实现强的泛化能力。

Nov, 2020

零样本强化学习中的泛化探索

研究如何在强化学习的零样本泛化中，通过训练一个能够有效探索领域的行为策略，来克服先前面临的过拟合问题。该研究通过使用一套名为 “ExpGen” 的算法，在多个 ProcGen 挑战任务中实现了良好的实验效果，尤其是在迷宫和抢劫等与任务可视化相关深度度量难解的情形下。

Jun, 2023

通过自监督世界模型规划探索

Plan2Explore 是一种无须任务特定交互且能够通过自监督探索和快速适应新任务的强化学习机器人，利用计划来探求未来预期的新颖性并在零次或少次学习中快速适应新任务。

May, 2020

通过程序化关卡生成，照亮深度强化学习的泛化问题

本文探讨了通过在训练中使用过程化生成的关卡如何增加模型的泛化性能，并研究了其与人类设计的关卡的关系。结果表明，通过降低难度、调整关卡设计，可以获得更好的性能表现，并进行了降维和聚类分析来评估关卡生成器的分布。

Jun, 2018

多任务深度强化学习中的零样本任务泛化

在强化学习中，我们介绍了一种新的强化学习问题，其中代理需要在学习解决子任务的有用技能后学习执行指令序列。我们考虑到先前未见的指令和更长的指令序列的泛化，为此，我们提出了一种基于类比的新目标和一个层次结构架构，并提出了一个新的神经网络架构来解决延迟奖励问题，实验结果表明这些提议对于泛化到较长指令序列以及未见指令是至关重要的。

Jun, 2017

可证明高效因果模型强化学习用于系统化泛化

该论文提出了一种基于因果视角的可行的系统性泛化的公式，并基于特定的结构假设提供了一种简单的学习算法，以多项式样本复杂度保证任何所需的规划误差。

Feb, 2022

部署期间的自监督政策适应

本文旨在研究如何在不同的环境之间进行强化学习模型的泛化，通过自我监督的方法实现模型的持续学习并在 36 个环境中的 31 个上实现了显著的改进，这些环境包括来自 DeepMind 控制套件和 ViZDoom 的多样的仿真环境以及实际机器人操作任务中的连续变化的环境。

Jul, 2020

世界模型

本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Mar, 2018