离线元强化学习与在线自我监督

ICMLJul, 2021

Offline Meta-Reinforcement Learning with Online Self-Supervision

Vitchyr H. Pong, Ashvin Nair, Laura Smith, Catherine Huang, Sergey Levine

TL;DR本文提出了一种混合离线元强化学习算法，能够使用有奖离线数据来元训练自适应策略，并通过收集额外的非监督在线数据来补偿分布偏移，这种算法比以前的元 RL 方法在模拟机器人运动和操纵任务中表现更为优异。

Abstract

meta-reinforcement learning (RL) methods can meta-train policies that adapt to new tasks with orders of magnitude less data than standard RL, but meta-training itself is costly and time-consuming. If we can meta-train on →

meta-reinforcement learning offline data adaptive policies unsupervised online data distribution shift

发现论文，激发创造

工业插入离线元强化学习

本文介绍了一种快速适应新任务的元学习框架，通过先前任务学习自适应，专注于工业插入任务，并结合上下文元学习和在线微调处理了传统元强化学习方法所需的在线元训练，成功率达 100%。

Oct, 2021

离线元学习探索

通过离线数据，基于贝叶斯强化学习视角提出 Offline Meta Reinforcement Learning 问题，研究如何设计元智能体以快速最大化相同任务分布下不同任务中的奖励收益，探究探索策略、MDP 歧义以及稀疏奖励任务等相关问题，最终拥有超越离线数据中单个 RL 代理的探索策略。

Aug, 2020

基于模型的离线元强化学习与正则化

该研究论文介绍了一种基于模型的元强化学习方法 ——MerPO，使用正则化策略优化来实现任务结构推断和元策略安全探索。该方法通过探究 “探索” 元策略的分布情况和 “利用” 离线数据集的紧密度之间的平衡，对元强化学习算法进行了改进，并在实验中取得了优异的表现。

Feb, 2022

基于技能的元强化学习

本论文旨在提出一种使用离线数据集中的先前经验来解决长期奖励任务的元学习方法，以实现复杂、长期目标的快速解决，可以显著提高样本效率并减少与环境的交互次数。

Apr, 2022

半监督离线强化学习与无动作轨迹

通过开发新的算法流程，利用多种数据来源进行线下强化学习，仅使用 10％的数据可以达到与完全有标签的数据集相似的性能，同时进行大规模控制实验，以确定半监督学习应用于 RL 的最佳实践。

Oct, 2022

无监督元学习强化学习

本研究提出了一系列用于强化学习的无监督元学习算法，以解决通过任务提案进行任务训练而非手动任务设计所带来的算法设计负担，并得出这些程序具有优异性能的结论。

Jun, 2018

离线元强化学习与基于数据分布的在线适应

本文提出了一种基于不确定性量化和有效任务置信推断的新方法框架 IDAQ，该方法通过产生正分布情境来解决离线学习数据集和在线自适应之间的转换奖励分布漂移，实现了元 - 强化学习的任务自适应和较高的性能表现。

May, 2023

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

S4RL：离线强化学习的惊人简单自监督

本文旨在通过对状态空间进行数据扩充来提高线下强化学习算法的泛化性能，并结合最先进的 Q-learning 技术，通过平滑学习到的状态 - 动作空间，实现在 MetaWorld 和 RoboSuite 等机器人学习环境以及 D4RL 数据集上显著的提升。

Mar, 2021

基于优势权重的离线元强化学习

本文介绍了离线元强化学习设置，并提出了一个能在该设置中表现优异的算法。我们提出了用于内外循环的简单监督回归目标的基于优化的元学习算法，称为 Meta-Actor Critic with Advantage Weighting (MACAW)。在常见的元 RL 基准的离线变量上，我们通过实验发现该方法能够实现完全离线元强化学习，并且比之前的方法有显着的提高。

Aug, 2020