离线元强化学习的背景变化削减

Nov, 2023

Context Shift Reduction for Offline Meta-Reinforcement Learning

Yunkai Gao, Rui Zhang, Jiaming Guo, Fan Wu, Qi Yi...

TL;DR使用离线数据集，提出了一种名为 CSRO 的新方法来解决上下文转换问题，该方法在元训练和元测试阶段都能显著减少上下文转换，并提高了泛化能力。

Abstract

Offline meta-reinforcement learning (OMRL) utilizes pre-collected offline datasets to enhance the agent's generalization ability on unseen tasks. However, the →

meta-reinforcement learning offline datasets context shift problem generalization ability csro

发现论文，激发创造

论离线元强化学习任务表示学习中的上下文分布转移

本文介绍了离线元强化学习（OMRL）的上下文基础，特别是针对 OMRL 的任务表示学习问题。我们提出了一种硬采样的策略来学习一个强大的任务上下文编码器，实验结果表明，与基线方法相比，在多个不同的连续控制任务中，使用我们的技术可以得到更强壮的任务表示和更好的测试性能。

Apr, 2023

审视我们忽略的事物：在基于上下文的离线元强化学习中驾驭任务表征的转移

通过最大化互信息来提高任务表示能够实现性能的单调改善，其中，RETRO 算法重新调整任务表示偏移，从而在离线元强化学习中取得了 SOTA 的渐近性能、训练稳定性和训练时间消耗的实证结果。

May, 2024

基于上下文、离线元强化学习的证明改进 —— 关注与对比学习

本文针对离线强化学习中的元学习问题，通过引入任务注意力机制和对比学习目标来提高任务表示的鲁棒性，从而改进了现有算法，并在多个元强化学习基准测试中展示了优越的性能和稳健性。

Feb, 2021

基于信息论的基于上下文的离线元强化学习框架

离线元强化学习（OMRL）的出现作为离线 RL 和元 RL 的结合在使 RL 代理能够多任务和快速适应并安全地获取知识方面显示出了巨大的潜力。我们提出将离线元强化学习的几个关键里程碑整合到一个统一的信息论框架中，并展示了现有的上下文 OMRL 算法本质上是通过实现各种近似界限优化任务变量 $oldsymbol {M}$ 与其潜在表示 $oldsymbol {Z}$ 之间的相互信息目标。基于理论见解和信息瓶颈原理，我们提出了一种新的算法称为 UNICORN，在 RL 基准、上下文转变场景、数据质量和深度学习架构的广泛领域中展示了卓越的泛化能力，达到了新的技术水平。我们相信我们的框架可以为新的优化界限和上下文 OMRL 算法开辟新的研究方向。

Feb, 2024

FOCAL：通过距离度量学习和行为规范实现高效完全离线的元强化学习

本研究旨在通过实施行为规范化、采用确定性上下文编码器及负幂距离度量等新方法，构建一种全新的、终端到终端的离线元元强化学习算法，以解决元强化学习中 “脱离分布状态动作引起的自举误差” 和 “训练策略学习的效率和健壮性” 等两大挑战，并将该算法应用于多种元强化学习基准测试中，展示了较为出色的性能。

Oct, 2020

透过敌对数据增强从离线任务表示学习中解离策略

离线元强化学习（OMRL）通过仅依赖静态数据集，使代理程序能够有效应对新任务。然而，许多现有的 OMRL 方法中，学到的任务表示往往与行为策略产生虚假相关，而非准确反映任务的本质特征。为了解决这个问题，我们提出了一种新的算法，通过对抗性数据增强的过程来消除行为策略对任务表示学习的影响，并实现了令人满意的分布外泛化。

Mar, 2024

离线元强化学习与在线自我监督

本文提出了一种混合离线元强化学习算法，能够使用有奖离线数据来元训练自适应策略，并通过收集额外的非监督在线数据来补偿分布偏移，这种算法比以前的元 RL 方法在模拟机器人运动和操纵任务中表现更为优异。

Jul, 2021

基于模型的离线元强化学习与正则化

该研究论文介绍了一种基于模型的元强化学习方法 ——MerPO，使用正则化策略优化来实现任务结构推断和元策略安全探索。该方法通过探究 “探索” 元策略的分布情况和 “利用” 离线数据集的紧密度之间的平衡，对元强化学习算法进行了改进，并在实验中取得了优异的表现。

Feb, 2022

离线元强化学习的上下文变换器

本文探讨了如何通过 prompt tuning 和 Contextual Meta Transformer 算法来提高基于序列建模的离线强化学习算法的性能，并在三种不同的离线 RL 设置下进行了广泛的实验，验证了方法的高效性和普适性。

Nov, 2022

基于对比学习的元强化学习有效上下文方法

提出一种名为 CCM 的元强化学习框架，通过对比不同任务来训练一个精简有效的上下文编码器，并训练一个单独的探索策略和理论推导一个新的信息增益目标，从而在几步内收集信息丰富的轨迹。实验证明，CCM 通过分别解决之前提到的问题，优于现有算法。

Sep, 2020