DARLA: 在强化学习中改进零样本迁移

ICMLJul, 2017

DARLA: 在强化学习中改进零样本迁移

DARLA: Improving Zero-Shot Transfer in Reinforcement Learning

Irina Higgins, Arka Pal, Andrei A. Rusu, Loic Matthey, Christopher P Burgess...

TL;DR该论文讨论利用多级深度强化学习代理 DARLA，通过学习离散化的环境表示，使策略更具鲁棒性实现领域自适应，该方法在不同的 RL 环境（Jaco arm, DeepMind Lab）和基本 RL 算法（DQN, A3C, and EC）中显示出比传统基线方法更好的性能表现。

Abstract

domain adaptation is an important open problem in deep reinforcement learning (RL). In many scenarios of interest data is hard to obtain, so agents may learn a source policy in a setting where data is readily ava

domain adaptation deep reinforcement learning disentangled representation learning multi-stage rl agent zero-shot domain adaptation

发现论文，激发创造

通过潜在的统一状态表示在强化学习中进行领域自适应

通过使用两个阶段的深度强化学习代理，其中第一阶段学习统一的状态表示，第二阶段在一个源域中基于此状态表示进行强化学习训练，以实现异构领域上的零样本策略转移，该方法已经在 CARLA 自动驾驶模拟器中得到验证。

Feb, 2021

AdaRL：迁移强化学习中的适应什么、在哪里和如何适应

提出了一种基于图表示学习的 RL 适应策略 AdaRL，只需少量样本即可可靠且高效地适应环境变化，结果表明 AdaRL 在 Cartpole 和 Atari 游戏中的表现良好。

Jul, 2021

领域对抗性强化学习

该研究解决强化学习中的泛化问题，通过领域对抗优化过程实现学习表征的视觉不变性，取得显著的泛化改进效果。

Feb, 2021

数据增强下的统一状态表示学习

该论文提出了一种使用数据增强进行统一状态表示学习的强化学习通用化方法，可以提高智能体的泛化能力和领域自适应性能在 DeepMind 控制泛化基准测试中的表现，达到了更高的样本效率和 14.3％的领域适应性比最佳基准结果。

Sep, 2022

DEAR：无需重构的强化学习中解耦环境和智能体表示

强化学习算法可以通过视觉观察学习机器人控制任务，但在视觉场景复杂且无结构时通常需要大量数据。本文探讨了代理器对其形状的认知如何提高视觉强化学习方法的样本效率，提出了一种名为 DEAR 的新方法，通过特征分离约束使用代理器的分割掩模作为监督来学习环境和代理器的解耦表示，在强化学习目标上以这些表示为辅助损失，以鼓励代理器专注于环境的相关特征。我们在两个具有挑战性的基准测试上评估了 DEAR：Distracting DeepMind 控制套件和 Franka Kitchen 操纵任务。我们的研究结果表明，DEAR 在样本效率方面超越了最先进的方法，通过减少参数数量实现了与其相当或更优越的性能。我们的研究结果表明，将代理器的认知融入视觉强化学习方法具有提高学习效率和鲁棒性的潜力。

Jun, 2024

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

DARA: 离线强化学习中的动态感知奖励增强

该论文提出了一种离线动态适应的强化学习方法，实现了对目标任务中状态转移对的学习，并且通过奖励增强在源任务的离线数据集中的学习，显著降低了在目标环境下的数据要求。

Mar, 2022

零样本迁移在模仿学习中的应用

我们提出了一种学习模仿专家行为并能在以前未见过的领域进行迁移学习的算法。通过使用 AnnealedVAE 来学习一个解缠缚状态表示，并通过学习一个单一的 Q 函数来模仿专家，我们结合了深度强化学习中的最新进展，从而克服了奖励函数设计的困难、在不同领域部署已学习策略的困难，以及直接在现实世界中学习由于安全问题而昂贵或不可行的问题。在 3 个环境中展示了我们方法的有效性，这些环境的难度和迁移知识类型各不相同。

Oct, 2023

解缠表示的领域无关学习

本文提出了领域无关学习（DAL）任务，旨在解决如何将来自标记源域的知识转移到任意目标域的未标记数据的问题。通过开发一种能够从类别标识中分离出特定于领域的特征的新型深度对抗去耦自编码器（DADA），我们实验性地证明在未知目标域标签的情况下，DADA 在多个图像分类数据集上实现了最先进的性能。

Apr, 2019

离线动态强化学习：通过领域分类器进行转移训练

我们提出了一种简单、实用和直观的强化学习领域自适应方法，通过修改奖励函数，使用辅助分类器来区分源域和目标域，对源域中不可能出现的状态进行惩罚，适用于连续状态和动作的域，可扩展至高维任务。

Jun, 2020