虚空中的行为：无监督主动预训练

Mar, 2021

虚空中的行为：无监督主动预训练

Behavior From the Void: Unsupervised Active Pre-Training

Hao Liu, Pieter Abbeel

TL;DR通过在非有奖励的环境中最大化抽象表示空间中的非参数熵，APT 探索了环境，从而避免了具有挑战性的密度建模，并且在具有高维观察的环境中表现出色。在 Atari 游戏中，APT 在 12 种游戏上取得人类水平的性能，并且相对于经典的全监督 RL 算法具有高竞争性的表现。在 DMControl 套件中，APT 在渐进性能和数据效率方面击败了所有基线，并显着提高了初学者难以从头开始培训的任务性能。

Abstract

We introduce a new unsupervised pre-training method for reinforcement learning called apt, which stands for Active Pre-Training. apt learn

unsupervised pre-training reinforcement learning apt exploration high-dimensional observations

发现论文，激发创造

APS：基于后继特征的主动预训练

本文提出了一种新的强化学习的无监督预训练目标，利用非参数熵最大化和变分继承者特征相结合，提出了 APS 方法，比现有方法表现更好。APS 通过非参数熵最大化探索环境数据，通过变分继承者特征学习行为。在 Atari 100k 数据效率基准测试中，APS 方法比结合无监督预训练和任务特定调参的先前方法表现显著更好。

Aug, 2021

更好的更少：关于预训练图神经网络的数据主动观点

我们提出了一种数据主动的图预训练（APT）框架，通过选择最具代表性和指导性的数据点来增强预训练，该框架包括图选择器和预训练模型，并通过两者的整合和交互以渐进迭代的方式进行图预训练，结果表明该方法能够通过较少的训练数据获得高效的预训练模型和更好的下游性能。

Nov, 2023

PASTA：预训练的动作 - 状态 Transformer 代理

通过自我监督学习，本研究建立了一种预训练行为 - 状态 Transformer 代理模型（PASTA），并在行为克隆、离线 RL、传感器故障鲁棒性以及动态变化适应等广泛领域的下游任务中进行了综合研究和比较设计选择，以提供有价值的见解给从业者，从而构建更加鲁棒的模型并推动 RL 策略学习的发展。

Jul, 2023

适应性程序化任务生成用于难探索问题

本文介绍了一种自适应过程任务生成方法（APT-Gen），它通过生成具有丰富变化的适当任务生成优于现有基准测试的结果，以在强化学习中逐步生成一系列任务作为课程。

Jul, 2020

无监督模型预训练：从像素到高效控制

本文提出了一种基于无监督 RL 策略的数据高效视觉控制的方法，通过使用 Dyna-MPC 等组件的预训练来实现更快的任务适应，并且在大规模实证研究的基础上建立了一种强化学习方法，可以使无监督设计策略的性能大大提高。

Sep, 2022

无参判别奖励的无监督控制

本文提出了一种基于无人监督学习的算法，用于训练代理达成感知确定目标，通过学习目标条件化策略和目标实现奖励函数，代理人能够在没有手工奖励或专业数据的情况下掌握环境的控制方法。

Nov, 2018

使用无监督辅助任务的强化学习

该论文介绍了一种深度强化学习代理，它不仅能够直接最大化累积奖励，在共同的表现下还能同时最大化许多其他伪奖励函数，该代理基于不受外部奖励影响的无监督学习得到共同的表现，并对外部奖励进行关注，可以快速适应实际任务，在 Atari 和三维 Labyrinth 任务中都取得了显著的优异表现。

Nov, 2016

学习无行动行动

通过从无动作演示中推断潜在动作，我们介绍了一种名为 LAPO 的方法，它可以有效地预训练深度强化学习模型，并且可以快速微调以实现专家级表现。这为在网上大量的无动作演示中预训练强大而通用的强化学习模型提供了重要基础。

Dec, 2023

利用视频进行无动作预训练的强化学习

本文介绍了一种通过生成式预训练学习得到的视觉表示，用于有效地加速并提高多种任务下视觉增强学习系统性能和效率的框架。我们在视频数据上预训练了一个无动作潜在视频预测模型，并将这些表示用于未知环境下的学习操作条件下的世界模型。我们还引入了一个新的架构，该架构在预训练的无动作预测模型的基础上堆叠了一个动作条件潜在预测模型，以更好地实现探索。同时也提出了基于视频的内在激励奖励机制，利用预训练表示的优势，有效提升了数据利用率和最终权能的完成度。

Mar, 2022

手掌向上：在潜在空间中进行无监督预训练游戏

本文提出了一种深度生成模型的算法，结合静态数据集和动态模型，利用无监督的强化学习探索环境，在时间信息中进行表示学习，并成功地将学习到的表示迁移到视觉和强化学习任务中。

Oct, 2022