离线元强化学习与在线自我监督
本文介绍了一种快速适应新任务的元学习框架,通过先前任务学习自适应,专注于工业插入任务,并结合上下文元学习和在线微调处理了传统元强化学习方法所需的在线元训练,成功率达 100%。
Oct, 2021
通过离线数据,基于贝叶斯强化学习视角提出 Offline Meta Reinforcement Learning 问题,研究如何设计元智能体以快速最大化相同任务分布下不同任务中的奖励收益,探究探索策略、MDP 歧义以及稀疏奖励任务等相关问题,最终拥有超越离线数据中单个 RL 代理的探索策略。
Aug, 2020
该研究论文介绍了一种基于模型的元强化学习方法 ——MerPO,使用正则化策略优化来实现任务结构推断和元策略安全探索。该方法通过探究 “探索” 元策略的分布情况和 “利用” 离线数据集的紧密度之间的平衡,对元强化学习算法进行了改进,并在实验中取得了优异的表现。
Feb, 2022
通过开发新的算法流程,利用多种数据来源进行线下强化学习,仅使用 10%的数据可以达到与完全有标签的数据集相似的性能,同时进行大规模控制实验,以确定半监督学习应用于 RL 的最佳实践。
Oct, 2022
本文提出了一种基于不确定性量化和有效任务置信推断的新方法框架 IDAQ,该方法通过产生正分布情境来解决离线学习数据集和在线自适应之间的转换奖励分布漂移,实现了元 - 强化学习的任务自适应和较高的性能表现。
May, 2023
本文介绍了一种名为自适应策略学习的框架,可用于离线学习与在线学习的融合,并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量,进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明,该算法可以在离线数据集质量较差的情况下实现高样本效率。
Mar, 2023
本文旨在通过对状态空间进行数据扩充来提高线下强化学习算法的泛化性能,并结合最先进的 Q-learning 技术,通过平滑学习到的状态 - 动作空间,实现在 MetaWorld 和 RoboSuite 等机器人学习环境以及 D4RL 数据集上显著的提升。
Mar, 2021
本文介绍了离线元强化学习设置,并提出了一个能在该设置中表现优异的算法。我们提出了用于内外循环的简单监督回归目标的基于优化的元学习算法,称为 Meta-Actor Critic with Advantage Weighting (MACAW)。在常见的元 RL 基准的离线变量上,我们通过实验发现该方法能够实现完全离线元强化学习,并且比之前的方法有显着的提高。
Aug, 2020