增强的无监督强化学习中的自指

Nov, 2023

Augmenting Unsupervised Reinforcement Learning with Self-Reference

Andrew Zhao, Erle Zhu, Rui Lu, Matthieu Lin, Yong-Jin Liu...

TL;DR提出了一种自我引用（Self-Reference）的方法，通过在预训练和微调模式中利用历史信息来增强强化学习智能体的性能，不仅在性能方面取得了最先进的结果，还提高了样本效率。

Abstract

Humans possess the ability to draw on past experiences explicitly when learning new tasks and applying them accordingly. We believe this capacity for self-referencing is especially advantageous for reinforcement learnin

发现论文，激发创造

损失即奖励：自监督增强学习

本文探讨了如何通过自我监督预训练和联合优化来增加辅助损失，提高强化学习中的数据效率和策略回报。

Dec, 2016

学习技能先验加速强化学习

通过学习技能先验分布，将其用于最大熵强化学习，能够在导航和机器人操作任务中实现有效的技能传输。

Oct, 2020

虚空中的行为: 无监督主动预训练

通过在非有奖励的环境中最大化抽象表示空间中的非参数熵，APT探索了环境，从而避免了具有挑战性的密度建模，并且在具有高维观察的环境中表现出色。在 Atari 游戏中，APT 在 12 种游戏上取得人类水平的性能，并且相对于经典的全监督 RL 算法具有高竞争性的表现。在 DMControl 套件中，APT 在渐进性能和数据效率方面击败了所有基线，并显着提高了初学者难以从头开始培训的任务性能。

Mar, 2021

自监督简化深度强化学习

通过自监督回归学习策略网络，提出了一种基于监督损失函数训练深度强化学习智能体的算法(SSRL)，该算法无需策略梯度或价值估计，能够通过监督回归数据来稳定提高策略表现并在效率和性能方面与现有算法相媲美，展示了利用监督学习技术解决强化学习问题的潜力。

Jun, 2021

强化学习中基于时间不一致性的自监督探索

本文提出一种新的内在奖励方法，利用自监督预测模型和核范数来评估历史知识对当前观察的差异，以此解决稀疏奖励的强化学习问题，并在多个基准环境下展示其优越性。

Aug, 2022

无监督模型预训练：从像素到高效控制

本文提出了一种基于无监督RL策略的数据高效视觉控制的方法，通过使用Dyna-MPC等组件的预训练来实现更快的任务适应，并且在大规模实证研究的基础上建立了一种强化学习方法，可以使无监督设计策略的性能大大提高。

Sep, 2022

基于技能的强化学习与内在奖励匹配

本文提出了一种名为Intrinsic Reward Matching (IRM)的方法，通过skill discriminator将预训练和下游任务微调这两个阶段的学习结合起来，以更好地匹配内在和下游任务奖励，从而有效地利用预训练技能

Oct, 2022

使用随机特征的自监督强化学习转移

通过在模型自由学习算法中引入自我监督学习的方法，使其能够实现任务转移；该方法是有监督的，可以在没有奖励标签的情况下进行训练，并且可以快速地部署到新任务中。

May, 2023

连接状态与历史表征：理解自预测强化学习

深度强化学习的关键是表示方法，这篇论文揭示了多种表示学习方法和理论框架之间的共同性，特别是基于自预测抽象的思想，并给出了学习自预测表示方法的最简算法和实用指南。

Jan, 2024

带有希尔伯特表示的基础政策

通过学习结构化表示并利用方向性移动跨越学习的潜在空间，我们提出了一种新的无监督框架，用于从无标签的离线数据中预训练能够捕捉多样化、最优且长程行为的通用策略，并可以在零样本方式下快速适应任意新任务。在模拟机器人的运动和操作基准测试中的实验证明，我们的无监督策略可以以零样本的方式解决目标有条件的和通用 RL 任务，甚至经常优于针对每个场景专门设计的先前方法。

Feb, 2024