对比上限置信区间算法：在在线强化学习中具有可证明高效的对比自监督学习

ICMLJul, 2022

对比上限置信区间算法：在在线强化学习中具有可证明高效的对比自监督学习

Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning

Shuang Qiu, Lingxiao Wang, Chenjia Bai, Zhuoran Yang, Zhaoran Wang

TL;DR通过最小化对比损失，提取正确的特征表达，将自对比自监督学习引入马尔可夫决策过程和马尔可夫游戏中，进一步提出结合在线 RL 算法的 UCB-type 算法，理论上提出我们的算法恢复真实表示，并同时在学习最优政策和 Nash 平衡方面实现样本效率。

Abstract

In view of its power in extracting feature representation, contrastive self-supervised learning has been successfully integrated into the practice of (deep) reinforcement learning (RL), leading to efficient policy learning in various applications. Despite its tremendous empirical succe

contrastive self-supervised learning reinforcement learning markov decision processes markov games low-rank transitions

发现论文，激发创造

对比学习作为目标条件强化学习

本文提出了基于对比学习的强化学习算法，通过学习动作标记的轨迹对比学习来直接获得好的表示，并成功地将其应用于目标条件 RL 任务。在一系列任务中，对比 RL 方法表现更好，且不需要使用数据增强或辅助目标。

Jun, 2022

强化学习增强的对比模型用于顺序推荐

通过提出一种名为模型增强对比强化学习（MCRL）的新型强化学习推荐器，我们解决了离线数据集的稀疏性以及负反馈无法获取的问题，并通过对比学习来优化奖励函数和状态转移函数，实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。

Oct, 2023

低秩 MDP 中在线和离线 RL 的表示学习

本文研究了如何在低秩马尔可夫决策过程中进行紧凑的低维表示的表示学习，并致力于改进样本复杂度，并提出 REP-UCB 算法。

Oct, 2021

将对比学习与动态模型集成，用于从图像中进行强化学习

本文提出了一种自监督表征学习方法，它将对比学习与动态模型相结合，以协同地实现三个目标，即通过最大化信息 NCE 界来诱导线性预测嵌入，通过显式学习非线性转换模型进一步提高学习嵌入的马尔可夫性以及最大化下一嵌入的互信息，其基于当前动作和当前状态的两个独立增强的嵌入预测，实验表明，与基于对比学习或重建的现有方法相比，我们的方法在样本效率和泛化性能上都取得了更好的结果。

Mar, 2022

稳定对比强化学习：离线目标达成技术

通过对比强化学习问题的先前对比方法，我们发现，结合谨慎的权重初始化和数据增强，使用浅而宽的架构可以显著提高这些对比强化学习方法在挑战性的模拟基准测试中的性能，并且可以通过这些设计决策解决实际的机器人操作任务。

Jun, 2023

通过对比学习实现离线元强化学习的稳健任务表示

在离线元强化学习的背景下，提出了一种对抗学习框架，用于学习对行为策略不敏感的任务表示，并通过对各种离线元强化学习基准测试的实验，展示了该方法相比之前的方法在行为策略的泛化能力方面的优越性。

Jun, 2022

Co$^2$L：对比连续学习

本文发现在连续学习的情境中，通过对比学习方法学习到的表示对抗遗忘更加鲁棒，基于该观察，我们提出了一种基于重复学习的算法，该算法着重于持续学习和维护可转移的表示，并在常见的基准图像分类数据集上进行了广泛实验验证，该方法取得了最新的最佳性能。

Jun, 2021

对比预测编码的表示学习

本研究提出了一种普适的无监督学习方法 Contrastive Predictive Coding，通过使用强大的自回归模型在潜在空间中预测未来来提取高维数据的有用表示，以此学习有用的表示并在语音，图像，文本和三维环境中的强化学习中实现了强大的表现。

Jul, 2018

对比学习中的在线目标表示

该论文提出了一种自监督学习的方法，用于从单目视频中学习物体的表征，并证明其在机器人等实践中具有特殊的用途。

Jun, 2019

示范对比学习

该论文提出了一个从多个视角捕捉的无标注视频演示中学习视觉表示的框架，优化了最近提出的自监督学习算法，应用对比学习来增强与任务相关的信息和抑制特征嵌入中的无关信息，验证了所提出的方法在模拟几种机器人任务，包括 pick and place 任务中的应用，评估了学习表示的三个指标：视点对齐，阶段分类和强化学习，在所有情况下，结果都表明与现有方法相比，该方法水平更高，而且训练轮数更少。

Jan, 2022