基于信息论的基于上下文的离线元强化学习框架

Feb, 2024

基于信息论的基于上下文的离线元强化学习框架

Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning

Lanqing Li, Hai Zhang, Xinyu Zhang, Shatong Zhu, Junqiao Zhao...

TL;DR离线元强化学习（OMRL）的出现作为离线 RL 和元 RL 的结合在使 RL 代理能够多任务和快速适应并安全地获取知识方面显示出了巨大的潜力。我们提出将离线元强化学习的几个关键里程碑整合到一个统一的信息论框架中，并展示了现有的上下文 OMRL 算法本质上是通过实现各种近似界限优化任务变量 $oldsymbol {M}$ 与其潜在表示 $oldsymbol {Z}$ 之间的相互信息目标。基于理论见解和信息瓶颈原理，我们提出了一种新的算法称为 UNICORN，在 RL 基准、上下文转变场景、数据质量和深度学习架构的广泛领域中展示了卓越的泛化能力，达到了新的技术水平。我们相信我们的框架可以为新的优化界限和上下文 OMRL 算法开辟新的研究方向。

Abstract

As a marriage between offline RL and meta-RL, the advent of offline meta-reinforcement learning (OMRL) has shown great promise in enabling RL agents to multi-task and quickly adapt while acquiring knowledge safely. Among which, context-based omrl (COMRL) as a popular paradigm, aims to

offline meta-reinforcement learning context-based omrl information theoretic framework unicorn algorithm optimality bounds

发现论文，激发创造

基于上下文、离线元强化学习的证明改进 —— 关注与对比学习

本文针对离线强化学习中的元学习问题，通过引入任务注意力机制和对比学习目标来提高任务表示的鲁棒性，从而改进了现有算法，并在多个元强化学习基准测试中展示了优越的性能和稳健性。

Feb, 2021

审视我们忽略的事物：在基于上下文的离线元强化学习中驾驭任务表征的转移

通过最大化互信息来提高任务表示能够实现性能的单调改善，其中，RETRO 算法重新调整任务表示偏移，从而在离线元强化学习中取得了 SOTA 的渐近性能、训练稳定性和训练时间消耗的实证结果。

May, 2024

论离线元强化学习任务表示学习中的上下文分布转移

本文介绍了离线元强化学习（OMRL）的上下文基础，特别是针对 OMRL 的任务表示学习问题。我们提出了一种硬采样的策略来学习一个强大的任务上下文编码器，实验结果表明，与基线方法相比，在多个不同的连续控制任务中，使用我们的技术可以得到更强壮的任务表示和更好的测试性能。

Apr, 2023

离线元强化学习的背景变化削减

使用离线数据集，提出了一种名为 CSRO 的新方法来解决上下文转换问题，该方法在元训练和元测试阶段都能显著减少上下文转换，并提高了泛化能力。

Nov, 2023

FOCAL：通过距离度量学习和行为规范实现高效完全离线的元强化学习

本研究旨在通过实施行为规范化、采用确定性上下文编码器及负幂距离度量等新方法，构建一种全新的、终端到终端的离线元元强化学习算法，以解决元强化学习中 “脱离分布状态动作引起的自举误差” 和 “训练策略学习的效率和健壮性” 等两大挑战，并将该算法应用于多种元强化学习基准测试中，展示了较为出色的性能。

Oct, 2020

基于对比学习的元强化学习有效上下文方法

提出一种名为 CCM 的元强化学习框架，通过对比不同任务来训练一个精简有效的上下文编码器，并训练一个单独的探索策略和理论推导一个新的信息增益目标，从而在几步内收集信息丰富的轨迹。实验证明，CCM 通过分别解决之前提到的问题，优于现有算法。

Sep, 2020

高斯任务上下文与技能的元强化学习解耦

离线元强化学习方法（即通过先前经验适应未见的目标任务）在机器人控制任务中至关重要。本文提出了一种名为分离式元强化学习（DCMRL）的框架，通过对任务上下文和技能的学习和探索进行量化和离散化，从而获取可推广的先前经验并在元测试阶段实现对未见目标任务的有效适应。实验证明，DCMRL 比先前的元强化学习方法具有更具推广性的先前经验，并在导航和机器人操纵连续控制任务中更加有效。

Dec, 2023

MOReL：基于模型的离线强化学习

本研究提出了基于模型的离线强化学习算法 MOReL，具有模块化设计，可以用于模型生成、不确定性估计、规划等领域，实验结果表明，MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。

May, 2020

离线元学习探索

通过离线数据，基于贝叶斯强化学习视角提出 Offline Meta Reinforcement Learning 问题，研究如何设计元智能体以快速最大化相同任务分布下不同任务中的奖励收益，探究探索策略、MDP 歧义以及稀疏奖励任务等相关问题，最终拥有超越离线数据中单个 RL 代理的探索策略。

Aug, 2020

强化学习的离线多任务表示学习

我们研究了强化学习中的离线多任务表示学习，理论上研究了离线多任务低秩强化学习，并提出了一种名为 MORL 的用于离线多任务表示学习的新算法。此外，我们还研究了奖励缺失、离线和在线情景下的下游强化学习，在其中引入了一个与上游离线任务共享相同表示的新任务。我们的理论结果证明了使用上游离线任务学到的表示而不是直接学习低秩模型的表示的好处。

Mar, 2024