透过敌对数据增强从离线任务表示学习中解离策略

Mar, 2024

透过敌对数据增强从离线任务表示学习中解离策略

Disentangling Policy from Offline Task Representation Learning via Adversarial Data Augmentation

Chengxing Jia, Fuxiang Zhang, Yi-Chen Li, Chen-Xiao Gao, Xu-Hui Liu...

TL;DR离线元强化学习（OMRL）通过仅依赖静态数据集，使代理程序能够有效应对新任务。然而，许多现有的 OMRL 方法中，学到的任务表示往往与行为策略产生虚假相关，而非准确反映任务的本质特征。为了解决这个问题，我们提出了一种新的算法，通过对抗性数据增强的过程来消除行为策略对任务表示学习的影响，并实现了令人满意的分布外泛化。

Abstract

offline meta-reinforcement learning (OMRL) proficiently allows an agent to tackle novel tasks while solely relying on a static dataset. For precise and efficient task identification, existing OMRL research suggests learning separate →

offline meta-reinforcement learning task representations contrastive learning adversarial data augmentation out-of-distribution generalization

发现论文，激发创造

通过对比学习实现离线元强化学习的稳健任务表示

在离线元强化学习的背景下，提出了一种对抗学习框架，用于学习对行为策略不敏感的任务表示，并通过对各种离线元强化学习基准测试的实验，展示了该方法相比之前的方法在行为策略的泛化能力方面的优越性。

Jun, 2022

审视我们忽略的事物：在基于上下文的离线元强化学习中驾驭任务表征的转移

通过最大化互信息来提高任务表示能够实现性能的单调改善，其中，RETRO 算法重新调整任务表示偏移，从而在离线元强化学习中取得了 SOTA 的渐近性能、训练稳定性和训练时间消耗的实证结果。

May, 2024

论离线元强化学习任务表示学习中的上下文分布转移

本文介绍了离线元强化学习（OMRL）的上下文基础，特别是针对 OMRL 的任务表示学习问题。我们提出了一种硬采样的策略来学习一个强大的任务上下文编码器，实验结果表明，与基线方法相比，在多个不同的连续控制任务中，使用我们的技术可以得到更强壮的任务表示和更好的测试性能。

Apr, 2023

离线元强化学习与在线自我监督

本文提出了一种混合离线元强化学习算法，能够使用有奖离线数据来元训练自适应策略，并通过收集额外的非监督在线数据来补偿分布偏移，这种算法比以前的元 RL 方法在模拟机器人运动和操纵任务中表现更为优异。

Jul, 2021

基于上下文、离线元强化学习的证明改进 —— 关注与对比学习

本文针对离线强化学习中的元学习问题，通过引入任务注意力机制和对比学习目标来提高任务表示的鲁棒性，从而改进了现有算法，并在多个元强化学习基准测试中展示了优越的性能和稳健性。

Feb, 2021

离线多任务转移强化学习与表示惩罚

我们研究了离线强化学习中的表示转移问题，提出了一种算法来计算学习表示的点态不确定性度量，并通过扩展数据的数据依赖上界证明了针对目标任务的学习策略的次优性。我们的算法利用源任务的集体探索来解决现有离线算法在一些点上覆盖不足的问题，并在需要完全覆盖的富观测马尔可夫决策过程上进行了实证评估，展示了惩罚和量化学习表示中的不确定性的益处。

Feb, 2024

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

离线元强化学习中的通用任务表示学习与数据限制

GENTLE 是一种用于解决在有限数据条件下学习可推广任务表征的新算法，它利用 Task Auto-Encoder 通过重构状态转换和奖励来捕捉任务模型的生成结构，并通过构造伪转换来缓解行为多样性有限的影响。实证结果表明，在分布内和分布外任务上，GENTLE 方法在给定上下文协议和一次性协议下明显优于现有的离线元强化学习方法。

Dec, 2023

强化学习的离线多任务表示学习

我们研究了强化学习中的离线多任务表示学习，理论上研究了离线多任务低秩强化学习，并提出了一种名为 MORL 的用于离线多任务表示学习的新算法。此外，我们还研究了奖励缺失、离线和在线情景下的下游强化学习，在其中引入了一个与上游离线任务共享相同表示的新任务。我们的理论结果证明了使用上游离线任务学到的表示而不是直接学习低秩模型的表示的好处。

Mar, 2024

使用未标记数据增强离线强化学习

该研究提出了一种解决离线强化学习中的 OOD 问题的新方法，通过引入离线强化学习师生框架和策略相似度度量，使得学生策略不仅可以从离线数据集中获取见解，还可以从教师策略传递的知识中获得额外的信息，从而有效解决 OOD 问题。

Jun, 2024