BIMRL:基于脑启发式的元强化学习
本文提出了一种名为深度元强化学习的方法,该方法使用递归网络,在一个强化学习算法上进行训练,但其递归动态实现第二个、完全分离的强化学习过程,通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。
Nov, 2016
本文提出一种在元强化学习中用于解决任务信息受限问题的方法,通过利用各种特权信息,分别学习策略和任务信念来解决部分可观测马尔可夫决策问题,从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。
May, 2019
通过双级优化的元进化强化学习(ERL)框架,我们在单个智能体内并行地更新超参数,从而解决了复杂强化学习问题中不足的探索或模型崩溃的问题,验证了其在各种 ERL 算法上改善学习性能的一致性优势。
Aug, 2023
基于现有先进模型和元学习方法,本文提出了一种新的基于模型的元强化学习方法,通过实验证明了我们方法在常见元强化学习基准领域上能够获得更高的回报,并且具有更好的样本利用效率(高达 15 倍),同时需要很少的超参数调整。此外,我们还在更具挑战性的、高维领域验证了我们的方法,为实现真实世界中的泛化智能体迈出了一步。
Mar, 2024
本文介绍了 TrMRL,这是一种运用 Transformer 架构的基于元强化学习的代理(Meta-Reinforcement Learning Algorithm),它结合了最近的工作内存以递归方式构建情境记忆,并利用 self-attention 机制计算和提供有意义的特征以执行最佳任务。研究表明,在高维连续控制环境下,TrMRL 相对于基线模型表现出了相当或优异的收敛性能、采样效率和超出分布范围的概况。
Jun, 2022
通过 POMDP 框架解决元 RL 问题的本质,发现递归元 RL 智能体可以被视为在由多个相关任务组成的部分可观测环境中最优地行动的代理,帮助我们理解它们的失败情况和文献中一些有趣的基于模型的结果。
Apr, 2021
本文提出了使用 Multi-Agent RL 来应对硬件体系结构搜索中领域特定定制的挑战,此方法相对于单一智能体,其可扩展性更高且运行更高效。该方法已在设计领域特定 DRAM 内存控制器上得到验证,并表现出在低功耗和延迟等不同目标方面显著优于单一代理强化学习算法,如 Proximal Policy Optimization 和 Soft Actor-Critic。
Nov, 2022
通过离线数据,基于贝叶斯强化学习视角提出 Offline Meta Reinforcement Learning 问题,研究如何设计元智能体以快速最大化相同任务分布下不同任务中的奖励收益,探究探索策略、MDP 歧义以及稀疏奖励任务等相关问题,最终拥有超越离线数据中单个 RL 代理的探索策略。
Aug, 2020
本文提出了一种基于联邦学习的强化学习策略的元学习算法,在不需要大量策略经验数据的情况下,能够加速学习新任务,该算法在控制任务的元强化学习中表现出显著的效果提升和可扩展性,并且可应用于视觉观测领域。
Apr, 2019
本文提出了一种 RL$^3$ 算法,该算法将 Task-specific action-values 作为 Traditional RL 学到的输入,并通过将 Traditional RL 和 Meta-RL 组合来在 Long-horizon 和 Out-of-distribution 任务中获得更高的累积回报。
Jun, 2023