对比学习作为目标条件强化学习

Jun, 2022

Contrastive Learning as Goal-Conditioned Reinforcement Learning

Benjamin Eysenbach, Tianjun Zhang, Ruslan Salakhutdinov, Sergey Levine

TL;DR本文提出了基于对比学习的强化学习算法，通过学习动作标记的轨迹对比学习来直接获得好的表示，并成功地将其应用于目标条件 RL 任务。在一系列任务中，对比 RL 方法表现更好，且不需要使用数据增强或辅助目标。

Abstract

In reinforcement learning (RL), it is easier to solve a task if given a good representation. While deep RL should automatically acquire such good representations, prior work often finds that learning representations in an end-to-end fashion is unstable and instead equip RL algorithms w

reinforcement learning representation learning contrastive learning value function offline rl

发现论文，激发创造

稳定对比强化学习：离线目标达成技术

通过对比强化学习问题的先前对比方法，我们发现，结合谨慎的权重初始化和数据增强，使用浅而宽的架构可以显著提高这些对比强化学习方法在挑战性的模拟基准测试中的性能，并且可以通过这些设计决策解决实际的机器人操作任务。

Jun, 2023

将对比学习与动态模型集成，用于从图像中进行强化学习

本文提出了一种自监督表征学习方法，它将对比学习与动态模型相结合，以协同地实现三个目标，即通过最大化信息 NCE 界来诱导线性预测嵌入，通过显式学习非线性转换模型进一步提高学习嵌入的马尔可夫性以及最大化下一嵌入的互信息，其基于当前动作和当前状态的两个独立增强的嵌入预测，实验表明，与基于对比学习或重建的现有方法相比，我们的方法在样本效率和泛化性能上都取得了更好的结果。

Mar, 2022

利用目标条件策略学习可操作表示

本文研究功能性显著表征的强化学习方法，可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验，表明该方法在表征学习、探索和分层强化学习方面具有优势。

Nov, 2018

强化学习中的局部约束表达

本文提出一种局部约束表示法，通过对环境观测状态的预测及邻近状态的表示作为辅助损失，将强化学习中的表示与任务相分离，可以提高泛化能力，有效应用于连续控制任务中。

Sep, 2022

基于回报的对比表示学习在强化学习中的应用

本研究提出了新的辅助任务，通过回报信号，使得学到的表示区分具有不同回报的状态和动作对，从而可以更好地在 Atari 游戏和 DeepMind 控制套件等复杂任务中进行学习，并在与现有的辅助任务相结合时表现更好。

Feb, 2021

对比表示学习：框架与综述

本篇论文提供了 Contrastive Learning 的文献综述，并提出了一个通用的 Contrastive Representation Learning 框架，该框架简化并统一了许多不同的对比学习方法，并对对比学习的各个组成部分进行了分类。对于任何对比学习系统存在的规约偏差进行了分析和讨论，将我们的框架根据各种机器学习子领域的不同视角进行了分析。最后，介绍了对比学习在计算机视觉、自然语言处理、音频处理以及强化学习等领域的应用，以及未来研究方向中的挑战和一些最有前途的研究方向。

Oct, 2020

通过对比学习实现离线元强化学习的稳健任务表示

在离线元强化学习的背景下，提出了一种对抗学习框架，用于学习对行为策略不敏感的任务表示，并通过对各种离线元强化学习基准测试的实验，展示了该方法相比之前的方法在行为策略的泛化能力方面的优越性。

Jun, 2022

对比差异预测编码

本文介绍了一种自适应时间差异版对比性预测编码，通过拼接不同时间序列数据的片段来减少学习未来事件预测所需的数据量，并将该方法应用于推导目标条件强化学习的离线策略算法。实验表明，与先前的强化学习方法相比，我们的方法在成功率方面取得了 2 倍的中值提高，能够更好地应对随机环境。在表格设置中，我们展示了我们的方法比后续表示方法更节约样本，比标准（蒙特卡洛）版本的对比性预测编码更节约样本数量约 20 倍和 1500 倍。

Oct, 2023

从语言到目标：基于视觉的逆强化学习指令跟随

本研究探讨了使用反强化学习将语言命令作为奖励函数的问题，并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法，即语言条件奖励学习（LC-RL）。实验结果表明，与直接学习语言条件策略相比，使用 LC-RL 学习的奖励可以更好地在新任务和环境中进行迁移。

Feb, 2019

对比上限置信区间算法：在在线强化学习中具有可证明高效的对比自监督学习

通过最小化对比损失，提取正确的特征表达，将自对比自监督学习引入马尔可夫决策过程和马尔可夫游戏中，进一步提出结合在线 RL 算法的 UCB-type 算法，理论上提出我们的算法恢复真实表示，并同时在学习最优政策和 Nash 平衡方面实现样本效率。

Jul, 2022