双仿关系在目标条件强化学习中的应用

ICMLApr, 2022

双仿关系在目标条件强化学习中的应用

Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning

Philippe Hansen-Estruch, Amy Zhang, Ashvin Nair, Patrick Yin, Sergey Levine

TL;DR提出了一种名为 Goal-conditioned bisimulation 的状态抽象形式来捕捉功能等变性，该方法可以让代理器在没有明确目标的情况下从先前的行为中学习新的目标，并且证明其可以适用于任何由纯状态奖励函数描述的下游任务

Abstract

Building generalizable goal-conditioned agents from rich observations is a key to reinforcement learning (RL) solving real world problems. Traditionally in goal-conditioned RL, an agent is provided with the exact goal they intend to reach. However, it is often not realistic to know the

reinforcement learning state abstraction bisimulation goal-conditioning generalization

发现论文，激发创造

利用不变性学习基于动作的表示

使用动作双模拟编码，通过扩展单步可控性以递归的不变性约束，提出能捕捉长时序元素的多步可控性度量，通过在无奖励、均匀随机数据上进行预训练，提高了在多个环境中的样本效率，并展示了动作双模拟编码所捕捉到的信息。

Mar, 2024

学习不带重建的强化学习不变表示

研究如何利用表示学习加速深度强化学习，学习能够为任务控制提供有效的潜在表示并具有与任务无关的不变性的表示方法，使用双模拟量度量在连续 MDP 状态之间的行为相似度，学习出能够仅编码来自观测的任务相关信息的健壮潜在表示，该方法通过训练编码器使潜在空间的距离等于状态空间中的双模拟距离，并在修改版的可视化 MuJoCo 任务中证明了其成功地去除任务无关信息且达到了先进技术的表现，测试了第一人称高速公路驾驶任务，其中方法学习了对云、天气和时间的不变性，最后提供了从双模拟度量的属性推导的泛化结果和与因果推断的联系。

Jun, 2020

强化学习中的观测转移泛化

本文提出了一种基于 bisimulation 的模拟器学习方法，在考虑环境变化的情况下，使用备选观测来学习一个对观测变换不变的表示空间，以实现对测试阶段环境的适应，并在高维图像控制领域上进行实证分析。

Jun, 2023

使用目标条件策略模拟基于图的规划

该论文提出了一种基于图形规划算法和自我模仿的方法，通过提取子目标策略来优化目标目标策略，从而提高在长期任务中实现指定目标的样本效率。

Mar, 2023

构建简化和可重用的因果状态抽象用于增强学习

用因果对等建模（CBM）方法在有因子的状态空间中学习动力学和奖励函数的因果关系，以得出最小的，任务特定的抽象。CBM 的隐式动力学模型可以在相同环境中重复使用，实验验证表明 CBM 的学习到的隐式动力学模型比显式模型更准确地识别了底层因果关系和状态抽象。此外，得出的状态抽象能够使任务学习者在所有任务上实现接近理想的样本效率，并在所有任务中优于基线模型。

Jan, 2024

离线强化学习中基于双模拟的表示方法的缺陷及其解决方法

通过分析发现，离线强化学习任务中缺失的状态转换对于等价关系原则特别有害，导致估计无效。同时，奖励缩放在界定等价度量和其引发的值误差的尺度方面起着至关重要的作用。基于这些发现，我们提出在离线强化学习环境中应用期望分为运算符进行表示学习，从而防止对不完整数据进行过拟合。与此同时，通过引入适当的奖励缩放策略，我们避免了表示空间中特征崩溃的风险。我们在两个最先进的基于等价关系的算法 MICo 和 SimSR 上实现了这些建议，并在两个基准套件 D4RL 和 Visual D4RL 上展示了性能提升。代码可在 https://github.com/zanghyu/Offline_Bisimulation 中找到。

Oct, 2023

对比学习作为目标条件强化学习

本文提出了基于对比学习的强化学习算法，通过学习动作标记的轨迹对比学习来直接获得好的表示，并成功地将其应用于目标条件 RL 任务。在一系列任务中，对比 RL 方法表现更好，且不需要使用数据增强或辅助目标。

Jun, 2022

运用变分因果推理泛化目标条件强化学习

利用 Causal Graph 加强了 Goal-Conditioned RL，提出了一种理论性能保证的优化框架，包括因果性发现、转换建模和策略训练的循环以提高 RL 代理的推理和泛化能力，并在九种任务上与五个基线进行了实证效果验证。

Jul, 2022

离散阶乘表示作为目标条件强化学习的抽象

提出了一种称为 DGRL 的方法，该方法通过学习目标的阶乘表示，并通过离散化瓶颈进行处理，以更粗略的目标规范来解决在噪声和高维度输入空间中定义目标的挑战；实验证明应用离散化瓶颈可以提高目标条件下的 RL 设置的性能。

Nov, 2022

通过迭代监督学习学习实现目标

本文介绍了一种强化学习算法，利用模仿学习从零开始获得目标达成策略，而不需要专家演示或价值函数，并通过该算法在多个基准任务中达到了比现有强化学习算法更好的目标达成性能和鲁棒性。

Dec, 2019