PAnDR: 通过解耦策略和环境表示从离线经验中快速适应新环境

ICLRApr, 2022

PAnDR: 通过解耦策略和环境表示从离线经验中快速适应新环境

PAnDR: Fast Adaptation to New Environments from Offline Experiences via Decoupling Policy and Environment Representations

PDF

Tong Sang, Hongyao Tang, Yi Ma, Jianye Hao, Yan Zheng...

TL;DR本文介绍了一种离线训练和在线适应设置下的策略快速适应方案 PAnDR，其通过对比学习和策略恢复学习环境表示和策略表示，在线适应阶段通过梯度上升算法优化策略，在几个典型问题上的实验结果表明，PAnDR 算法可优于现有算法。

Abstract

deep reinforcement learning (DRL) has been a promising solution to many complex decision-making problems. Nevertheless, the notorious weakness in generalization among environments prevent widespread application of DRL agents in real-world scenarios. Although advances have been made rec

deep reinforcement learning offline training online adaptation policy adaptation with decoupled representations (pandr)policy-dynamics value function

发现论文，激发创造

去偏离线表示学习用于快速在线适应非平稳动态

发展能够适应非平稳环境的策略对于现实强化学习应用至关重要。本文介绍了一种名为 DORA 的新方法，通过信息瓶颈原理实现了快速在线自适应，并在实验评估中展示了其在动力学编码和性能方面明显优于现有基线模型。

Feb, 2024

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

DARA: 离线强化学习中的动态感知奖励增强

该论文提出了一种离线动态适应的强化学习方法，实现了对目标任务中状态转移对的学习，并且通过奖励增强在源任务的离线数据集中的学习，显著降低了在目标环境下的数据要求。

Mar, 2022

基于策略动态价值函数的快速适应

介绍了一种新的 Policy-Dynamics Value Functions 方法用于快速适应不同于之前训练环境的动态环境，方法利用强化学习技术，通过学习环境和策略在嵌入空间中的表示并进行价值函数的训练，能够在少量交互中，通过学习后的价值函数快速适应不同动态环境，实验表明本方法在 MuJoCo 环境下有较好的表现。

Jul, 2020

离线强化学习中的超出分布泛化扩散策略

利用先前的经验来学习比用于经验收集的行为策略更好的政策的离线强化学习方法。与行为克隆相比，离线强化学习可以使用非专家数据和多模态行为策略。然而，离线强化学习算法在处理分布偏移和有效表示策略方面面临挑战，因为训练过程中缺乏在线交互。既往研究在离线强化学习中使用条件扩散模型来获取表示多模态行为的表达性政策。然而，它们没有针对缓解分布偏移状态泛化问题进行优化。我们提出了一种新方法，将状态重构特征学习纳入最近的一类扩散策略中，以解决分布外泛化问题。状态重构损失促进对状态的更加描述性表示学习，从而减轻分布外状态引起的分布偏移。我们设计了一个二维多模态上下文强化学习环境来展示和评估我们提出的模型。我们在这个新的环境以及几个 D4RL 基准任务上评估了我们模型的性能，实现了最先进的结果。

Jul, 2023

DARLA: 在强化学习中改进零样本迁移

该论文讨论利用多级深度强化学习代理 DARLA，通过学习离散化的环境表示，使策略更具鲁棒性实现领域自适应，该方法在不同的 RL 环境（Jaco arm, DeepMind Lab）和基本 RL 算法（DQN, A3C, and EC）中显示出比传统基线方法更好的性能表现。

Jul, 2017

DeepAveragers：通过求解派生的非参数 MDP 实现离线强化学习

研究了一种离线强化学习方法，在静态数据集的基础上通过有效解决有限表示 MDPs 的方式进行。该方法可应用于任何学习表示，并具有支持多种解决方案、零成本调整等特性；其主要贡献是引入了 Deep Averagers with Costs MDP，并研究了其在离线强化学习方面的解决方案。实验证明这种方法在实践中可以发挥作用，并可扩展到大型复杂的离线 RL 问题。

Oct, 2020

重新思考强化学习中的值函数学习以实现泛化

本研究旨在训练多个视觉环境下的 RL 代理以提高观察泛化性能，并提出了一种延迟评论者策略梯度（DCPG）算法，该算法可以使用单一统一的网络架构来实现，极大地提高了 Procgen 基准测试的样本效率和观测泛化性能。

Oct, 2022

强化学习通用化中价值与策略的解耦

提出了一种新的深度强化学习算法 IDAAC，采用不变性分离的方式，分别优化策略和价值函数，通过辅助损失使表示对环境的任务无关属性具有不变性，该算法在 Procgen 基准测试中表现出很好的泛化性能，并在 DeepMind 控制任务中超过了流行方法。

Feb, 2021

建立分布鲁棒学习和离线强化学习的桥梁：缓解分布偏移和部分数据覆盖的方法

离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决，本文提出了两种使用该框架的离线强化学习算法，并通过模拟实验展示了其优越性能。

Oct, 2023