强化学习中的观测转移泛化

Jun, 2023

Generalization Across Observation Shifts in Reinforcement Learning

Anuj Mahajan, Amy Zhang

TL;DR本文提出了一种基于 bisimulation 的模拟器学习方法，在考虑环境变化的情况下，使用备选观测来学习一个对观测变换不变的表示空间，以实现对测试阶段环境的适应，并在高维图像控制领域上进行实证分析。

Abstract

Learning policies which are robust to changes in the environment are critical for real world deployment of reinforcement learning agents. They are also necessary for achieving good generalization across environment shifts. We focus on →

reinforcement learning bisimulation metrics context dependent observation shifts simulator based learning image based control domains

发现论文，激发创造

学习不带重建的强化学习不变表示

研究如何利用表示学习加速深度强化学习，学习能够为任务控制提供有效的潜在表示并具有与任务无关的不变性的表示方法，使用双模拟量度量在连续 MDP 状态之间的行为相似度，学习出能够仅编码来自观测的任务相关信息的健壮潜在表示，该方法通过训练编码器使潜在空间的距离等于状态空间中的双模拟距离，并在修改版的可视化 MuJoCo 任务中证明了其成功地去除任务无关信息且达到了先进技术的表现，测试了第一人称高速公路驾驶任务，其中方法学习了对云、天气和时间的不变性，最后提供了从双模拟度量的属性推导的泛化结果和与因果推断的联系。

Jun, 2020

利用不变性学习基于动作的表示

使用动作双模拟编码，通过扩展单步可控性以递归的不变性约束，提出能捕捉长时序元素的多步可控性度量，通过在无奖励、均匀随机数据上进行预训练，提高了在多个环境中的样本效率，并展示了动作双模拟编码所捕捉到的信息。

Mar, 2024

双仿关系在目标条件强化学习中的应用

提出了一种名为 Goal-conditioned bisimulation 的状态抽象形式来捕捉功能等变性，该方法可以让代理器在没有明确目标的情况下从先前的行为中学习新的目标，并且证明其可以适用于任何由纯状态奖励函数描述的下游任务

Apr, 2022

离线强化学习中基于双模拟的表示方法的缺陷及其解决方法

通过分析发现，离线强化学习任务中缺失的状态转换对于等价关系原则特别有害，导致估计无效。同时，奖励缩放在界定等价度量和其引发的值误差的尺度方面起着至关重要的作用。基于这些发现，我们提出在离线强化学习环境中应用期望分为运算符进行表示学习，从而防止对不完整数据进行过拟合。与此同时，通过引入适当的奖励缩放策略，我们避免了表示空间中特征崩溃的风险。我们在两个最先进的基于等价关系的算法 MICo 和 SimSR 上实现了这些建议，并在两个基准套件 D4RL 和 Visual D4RL 上展示了性能提升。代码可在 https://github.com/zanghyu/Offline_Bisimulation 中找到。

Oct, 2023

图像强化学习中的控制中心表示

ReBis 是一种基于图像的强化学习方法，通过整合无奖励控制信息和有奖励特定知识，利用变换器架构来隐式建模动态，并结合分块屏蔽以消除时空冗余。此外，ReBis 将基于双模拟的损失与不对称重构损失相结合，以防止稀疏奖励环境中的特征崩溃。对 Atari 游戏和 DeepMind Control Suit 等两个大型基准进行的实证研究表明，ReBis 相较于现有方法具有卓越的性能，证明了其有效性。

Oct, 2023

评估分布偏移对强化学习性能的影响

针对分布转换情况下的强化学习进行严格评估的方法研究。

Feb, 2024

视觉强化学习泛化的可靠双向过渡模型表示

基于可靠的双向预测环境转换能力，我们引入了一个双向转换（BiT）模型，从视觉观察中提取可靠的表示形式，展现出了竞争力的泛化性能和样本效率。

Dec, 2023

零样本 Sim2Real 环境自适应

提出了使用 Reverse Action Transformation（RAT）策略的方法来解决模拟到现实世界之间的转换问题，并且和其他基线模型相比，在连续控制任务中可实现零样本适应。

Feb, 2023

探究连续深度强化学习中的泛化能力

本文通过深度增强学习模型下的不确定性源和基准测试来研究面临的泛化挑战，并评估了改进泛化性能的几种技术，总结了迄今为止最稳健的技术。

Feb, 2019

使用等价关系度量的聚类进行稳健的视觉强化学习并抵御干扰

通过聚类与双模拟度量相结合的方式，提出了一种新颖的方法 (Clustering with Bisimulation Metrics, CBM)，用于学习视觉信息的鲁棒表示，从而提高强化学习的样本效率。实验证明，CBM 显著改善了流行的视觉强化学习算法的样本效率，并在多个或单个干扰设置下实现了最先进的性能。

Feb, 2023