本文提出一种在元强化学习中用于解决任务信息受限问题的方法,通过利用各种特权信息,分别学习策略和任务信念来解决部分可观测马尔可夫决策问题,从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。
May, 2019
该篇研究通过无监督元学习方法,利用自动构建的任务,从无标记数据获取表征,并应用于多种下游分类任务中,相对于其他四种无监督学习方法的表征学习,显示出更好的性能。
Oct, 2018
本文提出了一种基于联邦学习的强化学习策略的元学习算法,在不需要大量策略经验数据的情况下,能够加速学习新任务,该算法在控制任务的元强化学习中表现出显著的效果提升和可扩展性,并且可应用于视觉观测领域。
Apr, 2019
本研究采用 meta-RL 控制策略,结合模型基于信息离线培训,通过已知系统的动态规律 (parameters) 来自动适应过程的变化,实现对一、二阶系统的调节。
Sep, 2022
本文提出了一种名为深度元强化学习的方法,该方法使用递归网络,在一个强化学习算法上进行训练,但其递归动态实现第二个、完全分离的强化学习过程,通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。
Nov, 2016
本文提出了一种混合离线元强化学习算法,能够使用有奖离线数据来元训练自适应策略,并通过收集额外的非监督在线数据来补偿分布偏移,这种算法比以前的元 RL 方法在模拟机器人运动和操纵任务中表现更为优异。
Jul, 2021
利用层级潜变量模型,自动推断任务之间的关系并应用于模型强化学习中,从而实现在小规模数据集上的元学习,有效提高数据利用率,解决新任务的平均交互时间缩短高达 60%。
Mar, 2018
本文提出了一个基于对元学习与传统监督学习之间联系的重新审视和加强的原则性统一框架,通过把任务特定数据集和目标模型看作(特征、标签)样本,我们可以把许多元学习算法归约到监督学习的实例中,进一步提高了元学习的表现。
Feb, 2020
本文介绍了一种快速适应新任务的元学习框架,通过先前任务学习自适应,专注于工业插入任务,并结合上下文元学习和在线微调处理了传统元强化学习方法所需的在线元训练,成功率达 100%。
Oct, 2021
本文研究使用 meta - 强化学习方法来完成多个视觉基准测试,在评估这些方法时,我们发现在不同的任务上,多任务预训练加微调的性能相当甚至更好,这与使用 meta-pretraining 和 meta test-time adaptation 的表现相当。因此我们建议在未来的 meta-RL 中加入更具挑战性的任务以及多任务预训练和微调作为更简单,强大的基线。
Jun, 2022