强化学习中基于对比行为相似性的嵌入用于泛化

ICLRJan, 2021

强化学习中基于对比行为相似性的嵌入用于泛化

Contrastive Behavioral Similarity Embeddings for Generalization in Reinforcement Learning

Rishabh Agarwal, Marlos C. Machado, Pablo Samuel Castro, Marc G. Bellemare

TL;DR该研究旨在提出一种基于顺序结构的强化学习方法来提高泛化能力，引入一种理论动机的策略相似度测量标准以及对比度表示学习方法，能够测量和嵌入任何状态相似度测量标准，从而达到改善类似于包含虚假相关性的 LQR、从像素到跳跃的任务以及 Distracting DM 控制套件等不同基准下的泛化效果。

Abstract

reinforcement learning methods trained on few environments rarely learn policies that generalize to unseen environments. To improve generalization, we incorporate the inherent sequential structure in

reinforcement learning generalization policy similarity metric representation learning state similarity metric

发现论文，激发创造

SIRL：基于相似性的隐式表示学习

从人们定义的相似度中学习表示使机器人能够识别和隔离人们实际关心和使用的因果特征，从而更好地学习他们的喜好和目标。在模拟和用户研究中，我们证明通过这种相似度查询学习可以比自我监督和任务输入等传统的表示学习方法得到更具有一般性的表示。

Jan, 2023

将对比学习与动态模型集成，用于从图像中进行强化学习

本文提出了一种自监督表征学习方法，它将对比学习与动态模型相结合，以协同地实现三个目标，即通过最大化信息 NCE 界来诱导线性预测嵌入，通过显式学习非线性转换模型进一步提高学习嵌入的马尔可夫性以及最大化下一嵌入的互信息，其基于当前动作和当前状态的两个独立增强的嵌入预测，实验表明，与基于对比学习或重建的现有方法相比，我们的方法在样本效率和泛化性能上都取得了更好的结果。

Mar, 2022

学习不带重建的强化学习不变表示

研究如何利用表示学习加速深度强化学习，学习能够为任务控制提供有效的潜在表示并具有与任务无关的不变性的表示方法，使用双模拟量度量在连续 MDP 状态之间的行为相似度，学习出能够仅编码来自观测的任务相关信息的健壮潜在表示，该方法通过训练编码器使潜在空间的距离等于状态空间中的双模拟距离，并在修改版的可视化 MuJoCo 任务中证明了其成功地去除任务无关信息且达到了先进技术的表现，测试了第一人称高速公路驾驶任务，其中方法学习了对云、天气和时间的不变性，最后提供了从双模拟度量的属性推导的泛化结果和与因果推断的联系。

Jun, 2020

动态感知嵌入

本文提出一种自监督表示学习方法，通过正向预测目标同时学习环境状态和动作序列的嵌入表示，以提高强化学习的采样效率和策略学习性能。研究表明，使用本文提出的动作嵌入表示已经能够在低维状态下有效提高模型无关的强化学习的采样效率和峰值性能。同时，结合状态嵌入和动作嵌入表示可以在只进行 100-200 万次环境步骤的情况下，快速、高效地学习高质量的基于目标条件的连续控制策略。

Aug, 2019

透过部分监督强化学习学习后见可观测部分可解释策略

通过融合监督学习和无监督学习，部分监督强化学习（PSRL）框架能够提供更可解释的策略和丰富的潜在洞察力，从而在奖励和收敛速度等方面保持并大大超越传统方法的性能基准。

Feb, 2024

VPE: 变分策略嵌入用于迁移强化学习

本文研究了如何在不同领域中转移知识和适应环境，提出了使用基于 Q 函数的方法来寻找一个可适应不同潜在变量值的主策略，使用低维潜在变量生成映射和近似后验概率来识别新任务的策略。并将该方法应用于模拟的摆起任务和推动任务的转移上。

Sep, 2018

强化学习中的度量和连续性

本文通过介绍度量学和邻域的形式表述，建立了各种相似度度量之间的层次结构，并研究了这些度量的理论性质和在强化学习问题上的应用，同时结合实验结果，进一步探讨了这些度量方法的差异。

Feb, 2021

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

通过强化学习中的内在动力特征学习任务相关的序列表示

通过建模状态转换的动力学方程、优化编码器以满足状态转换过程并区分状态空间和噪声空间，以及从序列元素频率域和多步预测的角度顺序地建模内在动力学方程关系，我们提出了一种内在动力学特征驱动的序列表示学习方法（DSR），并在视觉任务中展示了出色的表征能力。

May, 2024

实体对齐的深度强化学习

本研究将实体对齐建模为顺序决策任务，并提出强化学习的实体对齐框架，可以灵活地适应大多数基于嵌入的实体对齐方法，实验结果表明其能够持续提高多个最先进方法的性能，其中 Hits@1 的最大提高率为 31.1%。

Mar, 2022