学习不带重建的强化学习不变表示

ICLRJun, 2020

学习不带重建的强化学习不变表示

Learning Invariant Representations for Reinforcement Learning without Reconstruction

Amy Zhang, Rowan McAllister, Roberto Calandra, Yarin Gal, Sergey Levine

TL;DR研究如何利用表示学习加速深度强化学习，学习能够为任务控制提供有效的潜在表示并具有与任务无关的不变性的表示方法，使用双模拟量度量在连续 MDP 状态之间的行为相似度，学习出能够仅编码来自观测的任务相关信息的健壮潜在表示，该方法通过训练编码器使潜在空间的距离等于状态空间中的双模拟距离，并在修改版的可视化 MuJoCo 任务中证明了其成功地去除任务无关信息且达到了先进技术的表现，测试了第一人称高速公路驾驶任务，其中方法学习了对云、天气和时间的不变性，最后提供了从双模拟度量的属性推导的泛化结果和与因果推断的联系。

Abstract

We study how representation learning can accelerate reinforcement learning from rich observations, such as images, without relying either on domain knowledge or pixel-reconstruction. Our goal is to learn represen

representation learning reinforcement learning latent representations bisimulation metrics invariance

发现论文，激发创造

利用不变性学习基于动作的表示

使用动作双模拟编码，通过扩展单步可控性以递归的不变性约束，提出能捕捉长时序元素的多步可控性度量，通过在无奖励、均匀随机数据上进行预训练，提高了在多个环境中的样本效率，并展示了动作双模拟编码所捕捉到的信息。

Mar, 2024

序贯行为引发的不变表示在强化学习中的应用

通过序列动作导致不变表示法（SAR）方法，针对具有视觉干扰的高维观测中准确学习与任务相关的状态表示的问题，本文提出了一种能抵抗干扰的表示学习方法，通过编码器优化学习从而仅保留顺序动作控制信号后的组件，使得智能体能够学习到鲁棒的表示形式，并在实验中展示了该方法在对抗干扰任务和真实世界自动驾驶场景中的有效性。

Sep, 2023

图像强化学习中的控制中心表示

ReBis 是一种基于图像的强化学习方法，通过整合无奖励控制信息和有奖励特定知识，利用变换器架构来隐式建模动态，并结合分块屏蔽以消除时空冗余。此外，ReBis 将基于双模拟的损失与不对称重构损失相结合，以防止稀疏奖励环境中的特征崩溃。对 Atari 游戏和 DeepMind Control Suit 等两个大型基准进行的实证研究表明，ReBis 相较于现有方法具有卓越的性能，证明了其有效性。

Oct, 2023

使用等价关系度量的聚类进行稳健的视觉强化学习并抵御干扰

通过聚类与双模拟度量相结合的方式，提出了一种新颖的方法 (Clustering with Bisimulation Metrics, CBM)，用于学习视觉信息的鲁棒表示，从而提高强化学习的样本效率。实验证明，CBM 显著改善了流行的视觉强化学习算法的样本效率，并在多个或单个干扰设置下实现了最先进的性能。

Feb, 2023

离线强化学习中基于双模拟的表示方法的缺陷及其解决方法

通过分析发现，离线强化学习任务中缺失的状态转换对于等价关系原则特别有害，导致估计无效。同时，奖励缩放在界定等价度量和其引发的值误差的尺度方面起着至关重要的作用。基于这些发现，我们提出在离线强化学习环境中应用期望分为运算符进行表示学习，从而防止对不完整数据进行过拟合。与此同时，通过引入适当的奖励缩放策略，我们避免了表示空间中特征崩溃的风险。我们在两个最先进的基于等价关系的算法 MICo 和 SimSR 上实现了这些建议，并在两个基准套件 D4RL 和 Visual D4RL 上展示了性能提升。代码可在 https://github.com/zanghyu/Offline_Bisimulation 中找到。

Oct, 2023

强化学习中的观测转移泛化

本文提出了一种基于 bisimulation 的模拟器学习方法，在考虑环境变化的情况下，使用备选观测来学习一个对观测变换不变的表示空间，以实现对测试阶段环境的适应，并在高维图像控制领域上进行实证分析。

Jun, 2023

SimSR: 一种用于深度强化学习的简单基于距离的状态表示方法

本研究探讨了如何使用深度强化学习方法从基于图像的观察中学习鲁棒和通用状态表示，并通过提出的 Simple State Representation (SimSR) 算子解决了现有工作中的计算复杂性，严格假设和表示塌缩挑战，实验结果表明我们的模型通常可以取得更好的性能，具有更好的鲁棒性和通用性。

Dec, 2021

双仿关系在目标条件强化学习中的应用

提出了一种名为 Goal-conditioned bisimulation 的状态抽象形式来捕捉功能等变性，该方法可以让代理器在没有明确目标的情况下从先前的行为中学习新的目标，并且证明其可以适用于任何由纯状态奖励函数描述的下游任务

Apr, 2022

提高基于图像的模型自由强化学习的样本效率

通过引入辅助损失以及消除后效性的影响，提出了一种简单且有效的方法，可以在 MuJoCo 控制任务上匹配最新的无模型和有模型算法，同时在观测噪声下表现出鲁棒性，并且过来了以往使用变分自动编码器所面临的发散问题。

Oct, 2019

任务诱导的表示学习

本研究评估表征学习方法在视觉复杂环境下决策制定中的有效性，并发现任务诱导的表征学习方法可以提高样本效率和学习效率。

Apr, 2022