审视我们忽略的事物：在基于上下文的离线元强化学习中驾驭任务表征的转移

May, 2024

审视我们忽略的事物：在基于上下文的离线元强化学习中驾驭任务表征的转移

Scrutinize What We Ignore: Reining Task Representation Shift In Context-Based Offline Meta Reinforcement Learning

Hai Zhang, Boyuan Zheng, Anqi Guo, Tianying Ji, Pheng-Ann Heng...

TL;DR通过最大化互信息来提高任务表示能够实现性能的单调改善，其中，RETRO 算法重新调整任务表示偏移，从而在离线元强化学习中取得了 SOTA 的渐近性能、训练稳定性和训练时间消耗的实证结果。

Abstract

offline meta reinforcement learning (OMRL) has emerged as a promising approach for interaction avoidance and strong generalization performance by leveraging pre-collected data and meta-learning techniques. Previous context-based approaches predominantly rely on the intuition that maxim

offline meta reinforcement learning mutual information performance improvement task representation retro algorithm

发现论文，激发创造

论离线元强化学习任务表示学习中的上下文分布转移

本文介绍了离线元强化学习（OMRL）的上下文基础，特别是针对 OMRL 的任务表示学习问题。我们提出了一种硬采样的策略来学习一个强大的任务上下文编码器，实验结果表明，与基线方法相比，在多个不同的连续控制任务中，使用我们的技术可以得到更强壮的任务表示和更好的测试性能。

Apr, 2023

离线元强化学习的背景变化削减

使用离线数据集，提出了一种名为 CSRO 的新方法来解决上下文转换问题，该方法在元训练和元测试阶段都能显著减少上下文转换，并提高了泛化能力。

Nov, 2023

基于上下文、离线元强化学习的证明改进 —— 关注与对比学习

本文针对离线强化学习中的元学习问题，通过引入任务注意力机制和对比学习目标来提高任务表示的鲁棒性，从而改进了现有算法，并在多个元强化学习基准测试中展示了优越的性能和稳健性。

Feb, 2021

基于信息论的基于上下文的离线元强化学习框架

离线元强化学习（OMRL）的出现作为离线 RL 和元 RL 的结合在使 RL 代理能够多任务和快速适应并安全地获取知识方面显示出了巨大的潜力。我们提出将离线元强化学习的几个关键里程碑整合到一个统一的信息论框架中，并展示了现有的上下文 OMRL 算法本质上是通过实现各种近似界限优化任务变量 $oldsymbol {M}$ 与其潜在表示 $oldsymbol {Z}$ 之间的相互信息目标。基于理论见解和信息瓶颈原理，我们提出了一种新的算法称为 UNICORN，在 RL 基准、上下文转变场景、数据质量和深度学习架构的广泛领域中展示了卓越的泛化能力，达到了新的技术水平。我们相信我们的框架可以为新的优化界限和上下文 OMRL 算法开辟新的研究方向。

Feb, 2024

通过对比学习实现离线元强化学习的稳健任务表示

在离线元强化学习的背景下，提出了一种对抗学习框架，用于学习对行为策略不敏感的任务表示，并通过对各种离线元强化学习基准测试的实验，展示了该方法相比之前的方法在行为策略的泛化能力方面的优越性。

Jun, 2022

强化学习的离线多任务表示学习

我们研究了强化学习中的离线多任务表示学习，理论上研究了离线多任务低秩强化学习，并提出了一种名为 MORL 的用于离线多任务表示学习的新算法。此外，我们还研究了奖励缺失、离线和在线情景下的下游强化学习，在其中引入了一个与上游离线任务共享相同表示的新任务。我们的理论结果证明了使用上游离线任务学到的表示而不是直接学习低秩模型的表示的好处。

Mar, 2024

透过敌对数据增强从离线任务表示学习中解离策略

离线元强化学习（OMRL）通过仅依赖静态数据集，使代理程序能够有效应对新任务。然而，许多现有的 OMRL 方法中，学到的任务表示往往与行为策略产生虚假相关，而非准确反映任务的本质特征。为了解决这个问题，我们提出了一种新的算法，通过对抗性数据增强的过程来消除行为策略对任务表示学习的影响，并实现了令人满意的分布外泛化。

Mar, 2024

离线元强化学习中的通用任务表示学习与数据限制

GENTLE 是一种用于解决在有限数据条件下学习可推广任务表征的新算法，它利用 Task Auto-Encoder 通过重构状态转换和奖励来捕捉任务模型的生成结构，并通过构造伪转换来缓解行为多样性有限的影响。实证结果表明，在分布内和分布外任务上，GENTLE 方法在给定上下文协议和一次性协议下明显优于现有的离线元强化学习方法。

Dec, 2023

FOCAL：通过距离度量学习和行为规范实现高效完全离线的元强化学习

本研究旨在通过实施行为规范化、采用确定性上下文编码器及负幂距离度量等新方法，构建一种全新的、终端到终端的离线元元强化学习算法，以解决元强化学习中 “脱离分布状态动作引起的自举误差” 和 “训练策略学习的效率和健壮性” 等两大挑战，并将该算法应用于多种元强化学习基准测试中，展示了较为出色的性能。

Oct, 2020

离线多任务转移强化学习与表示惩罚

我们研究了离线强化学习中的表示转移问题，提出了一种算法来计算学习表示的点态不确定性度量，并通过扩展数据的数据依赖上界证明了针对目标任务的学习策略的次优性。我们的算法利用源任务的集体探索来解决现有离线算法在一些点上覆盖不足的问题，并在需要完全覆盖的富观测马尔可夫决策过程上进行了实证评估，展示了惩罚和量化学习表示中的不确定性的益处。

Feb, 2024