强化学习学习
本文提出一种在元强化学习中用于解决任务信息受限问题的方法,通过利用各种特权信息,分别学习策略和任务信念来解决部分可观测马尔可夫决策问题,从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。
May, 2019
深度强化学习中的元强化学习通过学习可以进行少样本训练的方式来解决样本低效问题。本文通过实证调查发现,当与超网络结合时,远比现有专门方法更简单的循环网络可以实现最强的性能。
Sep, 2023
本文提出了一种 RL$^3$ 算法,该算法将 Task-specific action-values 作为 Traditional RL 学到的输入,并通过将 Traditional RL 和 Meta-RL 组合来在 Long-horizon 和 Out-of-distribution 任务中获得更高的累积回报。
Jun, 2023
本文旨在开发一种方法,从传入的数据流中使用深度神经网络模型进行连续的在线学习,使用随机梯度下降算法来更新模型参数,并使用先验的中餐馆过程的期望最大化算法来开发和维护一种混合模型来处理非平稳任务分布。我们将元学习应用于基于模型的强化学习,以适应预测模型关键控制任务中的连续快速自适应。
Dec, 2018
本文介绍了一种快速适应新任务的元学习框架,通过先前任务学习自适应,专注于工业插入任务,并结合上下文元学习和在线微调处理了传统元强化学习方法所需的在线元训练,成功率达 100%。
Oct, 2021
本文提出了一种基于联邦学习的强化学习策略的元学习算法,在不需要大量策略经验数据的情况下,能够加速学习新任务,该算法在控制任务的元强化学习中表现出显著的效果提升和可扩展性,并且可应用于视觉观测领域。
Apr, 2019
本研究采用 meta-RL 控制策略,结合模型基于信息离线培训,通过已知系统的动态规律 (parameters) 来自动适应过程的变化,实现对一、二阶系统的调节。
Sep, 2022
通过 POMDP 框架解决元 RL 问题的本质,发现递归元 RL 智能体可以被视为在由多个相关任务组成的部分可观测环境中最优地行动的代理,帮助我们理解它们的失败情况和文献中一些有趣的基于模型的结果。
Apr, 2021
本文研究使用 meta - 强化学习方法来完成多个视觉基准测试,在评估这些方法时,我们发现在不同的任务上,多任务预训练加微调的性能相当甚至更好,这与使用 meta-pretraining 和 meta test-time adaptation 的表现相当。因此我们建议在未来的 meta-RL 中加入更具挑战性的任务以及多任务预训练和微调作为更简单,强大的基线。
Jun, 2022