基于时序和潜变量的对比损失的视觉强化学习方法：TACO

Jun, 2023

基于时序和潜变量的对比损失的视觉强化学习方法：TACO

TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning

Ruijie Zheng, Xiyao Wang, Yanchao Sun, Shuang Ma, Jieyu Zhao...

TL;DR本文介绍了一种名为 TACO 的时间驱动对比学习方法，通过优化当前状态与行动序列表示和相应未来状态表示之间的相互信息，同时学习状态和行动表示，并在深度强化学习的多个方面上实现了性能提升。

Abstract

Despite recent progress in reinforcement learning (RL) from raw pixel data, sample inefficiency continues to present a substantial obstacle. Prior works have attempted to address this challenge by creating self-s

reinforcement learning sample inefficiency action representation learning contrastive learning offline visual rl

发现论文，激发创造

Premier-TACO：通过时间驱动对比损失进行多任务表示的预训练

Premier-TACO 是一种多任务特征表示学习方法，旨在提高序贯决策任务中的少样本策略学习效率。它利用一组多任务离线数据集对通用特征表示进行预训练，捕捉关键的环境动态，并使用最少的专家演示进行微调。它改进了时空行动对比学习（TACO）目标，在视觉控制任务中取得了最先进的结果，并结合了一种新颖的负样本采样策略，极大地提高了 TACO 的计算效率，从而使大规模多任务离线预训练成为可能。我们在包括 DeepMind Control Suite、MetaWorld 和 LIBERO 在内的多个连续控制基准测试中进行了大量的实证评估，结果表明 Premier-TACO 在预训练视觉表示方面效果显著，在少样本模仿学习新任务中得到了显著的改善。我们将在此 URL 发布代码、预训练数据和预训练模型检查点。

Feb, 2024

基于回报的对比表示学习在强化学习中的应用

本研究提出了新的辅助任务，通过回报信号，使得学到的表示区分具有不同回报的状态和动作对，从而可以更好地在 Atari 游戏和 DeepMind 控制套件等复杂任务中进行学习，并在与现有的辅助任务相结合时表现更好。

Feb, 2021

多智能体基于时间对比学习的迁移学习

该研究介绍了一个用于深度多智能体强化学习的新型迁移学习框架。该方法通过自动组合目标条件策略和时间对比学习，发现有意义的子目标。实验证明，该方法在多智能体协调任务 Overcooked 上能够提高样本效率，解决稀疏奖励和长期规划问题，并且相比基准方法具有更高的可解释性。与最先进的基准方法相比，我们的方法只需要原来的 21.7% 的训练样本就能达到相同或更好的性能。

Jun, 2024

从强化学习中分离表示学习

该研究提出了一种从图像中训练深度强化学习模型的新方法，称为增强时序对比学习（ATC），该方法训练一个卷积编码器以用对比损失关联短时间差别的图像对，并成功应用于多个模拟实验中以实现代理在 RL 任务中更好的性能。

Sep, 2020

TCLR: 视频表征的时序对比学习

本研究提出了一种新的时间对比学习框架，采用两个新的损失函数以提高现有自监督视频表示学习方法的性能，其中局部 - 局部时间对比损失和全局 - 局部时间对比损失实现了在各种下游视频理解任务中的显着改进。

Jan, 2021

强化学习中的表示时间解耦以提高泛化能力

通过引入时间分离（TED）作为强化学习辅助任务，可以更好地利用序列化 RL 观察结果，学习更健壮的表示形式，从而使 RL 算法对未知环境变量的变化更快地适应。

Jul, 2022

对比学习作为目标条件强化学习

本文提出了基于对比学习的强化学习算法，通过学习动作标记的轨迹对比学习来直接获得好的表示，并成功地将其应用于目标条件 RL 任务。在一系列任务中，对比 RL 方法表现更好，且不需要使用数据增强或辅助目标。

Jun, 2022

从视觉观察中学习可操作的表征

本文研究了使用自我监督学习来学习连续控制任务的对抗学习方法。通过将多个帧联合嵌入到嵌入空间中，我们扩展了时间对比网络（TCN），从而能够更准确地编码位置和速度属性。我们证明了这种方法在强化学习任务中有效，可以通过仅使用学习到的嵌入作为输入，使用像 Proximal Policy Optimization（PPO）这样的算法来学习连续控制策略。

Aug, 2018

随机潜在演员 - 评论家：具有潜在变量模型的深度强化学习

本文介绍了一种基于深度强化学习的算法，通过学习潜在表示来加速图像的强化学习，提出了随机潜在 Actor-Critic（SLAC）算法，并表明其在图像控制任务上的表现优于其他无模型或基于模型的替代方案。

Jul, 2019

为数据高效强化学习学习具有时间一致性的表示

本研究提出了一种名为 KSL 的新的表示学习方法，通过自我监督辅助任务，强制执行表示的时间一致性，其中代理程序学习以动作为条件的状态空间表示的经常性预测。KSL 学习到的状态编码器生成低维表示，可以使 RL 任务的优化更具样本效率，并在 PlaNet 基准测试套件中产生最先进的数据效率和渐近性能结果。

Oct, 2021