离线强化学习中基于双模拟的表示方法的缺陷及其解决方法

Oct, 2023

离线强化学习中基于双模拟的表示方法的缺陷及其解决方法

Understanding and Addressing the Pitfalls of Bisimulation-based Representations in Offline Reinforcement Learning

Hongyu Zang, Xin Li, Leiji Zhang, Yang Liu, Baigui Sun...

TL;DR通过分析发现，离线强化学习任务中缺失的状态转换对于等价关系原则特别有害，导致估计无效。同时，奖励缩放在界定等价度量和其引发的值误差的尺度方面起着至关重要的作用。基于这些发现，我们提出在离线强化学习环境中应用期望分为运算符进行表示学习，从而防止对不完整数据进行过拟合。与此同时，通过引入适当的奖励缩放策略，我们避免了表示空间中特征崩溃的风险。我们在两个最先进的基于等价关系的算法 MICo 和 SimSR 上实现了这些建议，并在两个基准套件 D4RL 和 Visual D4RL 上展示了性能提升。代码可在 https://github.com/zanghyu/Offline_Bisimulation 中找到。

Abstract

While bisimulation-based approaches hold promise for learning robust state representations for Reinforcement Learning (RL) tasks, their efficacy in offline rl tasks has not been up to par. In some instances, thei

bisimulation-based approaches offline rl tasks missing transitions reward scaling representation learning

发现论文，激发创造

学习不带重建的强化学习不变表示

研究如何利用表示学习加速深度强化学习，学习能够为任务控制提供有效的潜在表示并具有与任务无关的不变性的表示方法，使用双模拟量度量在连续 MDP 状态之间的行为相似度，学习出能够仅编码来自观测的任务相关信息的健壮潜在表示，该方法通过训练编码器使潜在空间的距离等于状态空间中的双模拟距离，并在修改版的可视化 MuJoCo 任务中证明了其成功地去除任务无关信息且达到了先进技术的表现，测试了第一人称高速公路驾驶任务，其中方法学习了对云、天气和时间的不变性，最后提供了从双模拟度量的属性推导的泛化结果和与因果推断的联系。

Jun, 2020

具有偏倚离线数据和不完善模拟器的强化学习基准

许多强化学习应用中，很难让智能体在真实世界中行动，这给自动驾驶、医疗应用甚至某些推荐系统带来了困扰。本研究概述了强化学习中将离线数据与不完善模拟器相结合的四个主要挑战，并构建了 “机械离线强化学习基准”（B4MRL）来推动该领域的研究。结果表明，这些基准对未来研究至关重要。

Jun, 2024

图像强化学习中的控制中心表示

ReBis 是一种基于图像的强化学习方法，通过整合无奖励控制信息和有奖励特定知识，利用变换器架构来隐式建模动态，并结合分块屏蔽以消除时空冗余。此外，ReBis 将基于双模拟的损失与不对称重构损失相结合，以防止稀疏奖励环境中的特征崩溃。对 Atari 游戏和 DeepMind Control Suit 等两个大型基准进行的实证研究表明，ReBis 相较于现有方法具有卓越的性能，证明了其有效性。

Oct, 2023

强化学习中的观测转移泛化

本文提出了一种基于 bisimulation 的模拟器学习方法，在考虑环境变化的情况下，使用备选观测来学习一个对观测变换不变的表示空间，以实现对测试阶段环境的适应，并在高维图像控制领域上进行实证分析。

Jun, 2023

利用不变性学习基于动作的表示

使用动作双模拟编码，通过扩展单步可控性以递归的不变性约束，提出能捕捉长时序元素的多步可控性度量，通过在无奖励、均匀随机数据上进行预训练，提高了在多个环境中的样本效率，并展示了动作双模拟编码所捕捉到的信息。

Mar, 2024

双仿关系在目标条件强化学习中的应用

提出了一种名为 Goal-conditioned bisimulation 的状态抽象形式来捕捉功能等变性，该方法可以让代理器在没有明确目标的情况下从先前的行为中学习新的目标，并且证明其可以适用于任何由纯状态奖励函数描述的下游任务

Apr, 2022

SimSR: 一种用于深度强化学习的简单基于距离的状态表示方法

本研究探讨了如何使用深度强化学习方法从基于图像的观察中学习鲁棒和通用状态表示，并通过提出的 Simple State Representation (SimSR) 算子解决了现有工作中的计算复杂性，严格假设和表示塌缩挑战，实验结果表明我们的模型通常可以取得更好的性能，具有更好的鲁棒性和通用性。

Dec, 2021

双仿真学习

我们介绍了一种基于数据驱动的方法来计算具有非常大，可能是无限状态空间的状态转换系统的有限双模拟。我们的新技术计算确定性系统的阻塞不敏感的双模拟，我们将其描述为学习状态分类器与每个类的排名函数的问题。我们的方法从一个有限的样本状态数据集中学习候选状态分类器和候选排名函数；然后，它使用可满足性模理论求解检查这些是否推广到整个状态空间。如果得到肯定答案，该过程得出结论，该分类器构成了系统的有效阻塞不敏感的双模拟。如果得到否定答案，求解器会生成一个反例状态，该状态违反了该分类器的断言，将其添加到数据集中，并在反例引导的归纳合成循环中重复学习和检查，直到找到有效的双模拟。我们在反应性验证和软件模型检查的一系列基准测试中展示了我们的方法在实践中优于其他最先进的工具的更快验证结果。我们的方法产生简洁的抽象，使得能够有效地验证不包含下一个运算符的线性时态逻辑，并且对于系统诊断具有解释能力。

May, 2024

PerSim：基于个性化模拟器的异构智能体数据高效离线强化学习

本文提出基于模型的离线强化学习方法 PerSim 来解决数据稀缺性问题，通过学习每个智能体的个性化模拟器来提高性能并同时学习个性化策略。

Feb, 2021

使用等价关系度量的聚类进行稳健的视觉强化学习并抵御干扰

通过聚类与双模拟度量相结合的方式，提出了一种新颖的方法 (Clustering with Bisimulation Metrics, CBM)，用于学习视觉信息的鲁棒表示，从而提高强化学习的样本效率。实验证明，CBM 显著改善了流行的视觉强化学习算法的样本效率，并在多个或单个干扰设置下实现了最先进的性能。

Feb, 2023