强化学习中的观测转移泛化
研究如何利用表示学习加速深度强化学习,学习能够为任务控制提供有效的潜在表示并具有与任务无关的不变性的表示方法,使用双模拟量度量在连续 MDP 状态之间的行为相似度,学习出能够仅编码来自观测的任务相关信息的健壮潜在表示,该方法通过训练编码器使潜在空间的距离等于状态空间中的双模拟距离,并在修改版的可视化 MuJoCo 任务中证明了其成功地去除任务无关信息且达到了先进技术的表现,测试了第一人称高速公路驾驶任务,其中方法学习了对云、天气和时间的不变性,最后提供了从双模拟度量的属性推导的泛化结果和与因果推断的联系。
Jun, 2020
使用动作双模拟编码,通过扩展单步可控性以递归的不变性约束,提出能捕捉长时序元素的多步可控性度量,通过在无奖励、均匀随机数据上进行预训练,提高了在多个环境中的样本效率,并展示了动作双模拟编码所捕捉到的信息。
Mar, 2024
提出了一种名为 Goal-conditioned bisimulation 的状态抽象形式来捕捉功能等变性,该方法可以让代理器在没有明确目标的情况下从先前的行为中学习新的目标,并且证明其可以适用于任何由纯状态奖励函数描述的下游任务
Apr, 2022
通过分析发现,离线强化学习任务中缺失的状态转换对于等价关系原则特别有害,导致估计无效。同时,奖励缩放在界定等价度量和其引发的值误差的尺度方面起着至关重要的作用。基于这些发现,我们提出在离线强化学习环境中应用期望分为运算符进行表示学习,从而防止对不完整数据进行过拟合。与此同时,通过引入适当的奖励缩放策略,我们避免了表示空间中特征崩溃的风险。我们在两个最先进的基于等价关系的算法 MICo 和 SimSR 上实现了这些建议,并在两个基准套件 D4RL 和 Visual D4RL 上展示了性能提升。代码可在 https://github.com/zanghyu/Offline_Bisimulation 中找到。
Oct, 2023
ReBis 是一种基于图像的强化学习方法,通过整合无奖励控制信息和有奖励特定知识,利用变换器架构来隐式建模动态,并结合分块屏蔽以消除时空冗余。此外,ReBis 将基于双模拟的损失与不对称重构损失相结合,以防止稀疏奖励环境中的特征崩溃。对 Atari 游戏和 DeepMind Control Suit 等两个大型基准进行的实证研究表明,ReBis 相较于现有方法具有卓越的性能,证明了其有效性。
Oct, 2023
提出了使用 Reverse Action Transformation(RAT)策略的方法来解决模拟到现实世界之间的转换问题,并且和其他基线模型相比,在连续控制任务中可实现零样本适应。
Feb, 2023
通过聚类与双模拟度量相结合的方式,提出了一种新颖的方法 (Clustering with Bisimulation Metrics, CBM),用于学习视觉信息的鲁棒表示,从而提高强化学习的样本效率。实验证明,CBM 显著改善了流行的视觉强化学习算法的样本效率,并在多个或单个干扰设置下实现了最先进的性能。
Feb, 2023