从强化学习中分离表示学习

Sep, 2020

Decoupling Representation Learning from Reinforcement Learning

Adam Stooke, Kimin Lee, Pieter Abbeel, Michael Laskin

TL;DR该研究提出了一种从图像中训练深度强化学习模型的新方法，称为增强时序对比学习（ATC），该方法训练一个卷积编码器以用对比损失关联短时间差别的图像对，并成功应用于多个模拟实验中以实现代理在 RL 任务中更好的性能。

Abstract

In an effort to overcome limitations of reward-driven feature learning in deep reinforcement learning (RL) from images, we propose decoupling representation learning from policy learning. To this end, we introduc

deep reinforcement learning unsupervised learning representation learning convolutional encoder image augmentations

发现论文，激发创造

强化学习中的表示时间解耦以提高泛化能力

通过引入时间分离（TED）作为强化学习辅助任务，可以更好地利用序列化 RL 观察结果，学习更健壮的表示形式，从而使 RL 算法对未知环境变量的变化更快地适应。

Jul, 2022

提高基于图像的模型自由强化学习的样本效率

通过引入辅助损失以及消除后效性的影响，提出了一种简单且有效的方法，可以在 MuJoCo 控制任务上匹配最新的无模型和有模型算法，同时在观测噪声下表现出鲁棒性，并且过来了以往使用变分自动编码器所面临的发散问题。

Oct, 2019

为数据高效的强化学习预训练表示

利用未标记数据预先训练编码器，然后在少量任务特定数据上微调，通过使用潜在动态建模和无监督的目标条件强化学习来促进学习代表捕捉底层 MDP 的多个方面，该方法显示出极高的数据效率并且提供与先前工作以及需要订单更多数据的其他预训练方法相比的最先进的性能

Jun, 2021

基于时序和潜变量的对比损失的视觉强化学习方法：TACO

本文介绍了一种名为 TACO 的时间驱动对比学习方法，通过优化当前状态与行动序列表示和相应未来状态表示之间的相互信息，同时学习状态和行动表示，并在深度强化学习的多个方面上实现了性能提升。

Jun, 2023

多智能体基于时间对比学习的迁移学习

该研究介绍了一个用于深度多智能体强化学习的新型迁移学习框架。该方法通过自动组合目标条件策略和时间对比学习，发现有意义的子目标。实验证明，该方法在多智能体协调任务 Overcooked 上能够提高样本效率，解决稀疏奖励和长期规划问题，并且相比基准方法具有更高的可解释性。与最先进的基准方法相比，我们的方法只需要原来的 21.7% 的训练样本就能达到相同或更好的性能。

Jun, 2024

TCLR: 视频表征的时序对比学习

本研究提出了一种新的时间对比学习框架，采用两个新的损失函数以提高现有自监督视频表示学习方法的性能，其中局部 - 局部时间对比损失和全局 - 局部时间对比损失实现了在各种下游视频理解任务中的显着改进。

Jan, 2021

基于回报的对比表示学习在强化学习中的应用

本研究提出了新的辅助任务，通过回报信号，使得学到的表示区分具有不同回报的状态和动作对，从而可以更好地在 Atari 游戏和 DeepMind 控制套件等复杂任务中进行学习，并在与现有的辅助任务相结合时表现更好。

Feb, 2021

图形对象中心的演员 - 评论家算法

最近在无监督的物体中心表示学习问题和其在下游任务中的应用方面取得了重大进展。最新研究支持这样一个论点：在基于图像的物体中心强化学习任务中使用解耦的物体表示有助于策略学习。我们提出了一种新颖的物体中心强化学习算法，结合了演员 - 评论家和基于模型的方法，有效地利用这些表示。我们的方法使用转换编码器提取物体表示，并使用图神经网络来近似环境动力学。所提出的方法填补了开发用于离散或连续动作空间环境的高效物体中心世界模型的研究空白。与基于转换器架构的最先进的无模型演员 - 评论家算法和最先进的整合模型为基础的算法相比，我们的算法在视觉复杂的三维机器人环境和具有组合结构的二维环境中表现更好。

Oct, 2023

CLUTR: 通过无监督任务表示学习进行课程学习

介绍了 CLUTR：一种新型的无监督课程学习算法，通过将任务表示和课程学习分解成两个阶段的优化，成功地克服了任务分布不稳定性的问题，提高了稳定性，并在 CarRacing 和 Navigation 等环境中实现了具有挑战性的零 - shot 推广。

Oct, 2022

从视觉观察中学习可操作的表征

本文研究了使用自我监督学习来学习连续控制任务的对抗学习方法。通过将多个帧联合嵌入到嵌入空间中，我们扩展了时间对比网络（TCN），从而能够更准确地编码位置和速度属性。我们证明了这种方法在强化学习任务中有效，可以通过仅使用学习到的嵌入作为输入，使用像 Proximal Policy Optimization（PPO）这样的算法来学习连续控制策略。

Aug, 2018