BIMRL：基于脑启发式的元强化学习

Oct, 2022

BIMRL：基于脑启发式的元强化学习

BIMRL: Brain Inspired Meta Reinforcement Learning

Seyed Roozbeh Razavi Rohani, Saeed Hedayatian, Mahdieh Soleymani Baghshah

TL;DR本文介绍了一种名为 BIMRL 的新型多层体系结构及新型脑启发记忆模块，旨在帮助智能体在几个周期内快速适应新任务。我们还利用这种记忆模块设计了一种新的内在奖励，以指导代理的探索。我们证明了我们提出的方法的有效性，具有强大的性能，能够胜过一些强大的基线算法。

Abstract

sample efficiency has been a key issue in reinforcement learning (RL). An efficient agent must be able to leverage its prior experiences to quickly adapt to similar, but new tasks and situations. →

sample efficiency reinforcement learning meta-rl bimrl brain-inspired memory module

发现论文，激发创造

强化学习学习

本文提出了一种名为深度元强化学习的方法，该方法使用递归网络，在一个强化学习算法上进行训练，但其递归动态实现第二个、完全分离的强化学习过程，通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。

Nov, 2016

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

BiERL：一种基于双层优化的元进化强化学习框架

通过双级优化的元进化强化学习（ERL）框架，我们在单个智能体内并行地更新超参数，从而解决了复杂强化学习问题中不足的探索或模型崩溃的问题，验证了其在各种 ERL 算法上改善学习性能的一致性优势。

Aug, 2023

MAMBA: 一种适用于元强化学习的有效世界模型方法

基于现有先进模型和元学习方法，本文提出了一种新的基于模型的元强化学习方法，通过实验证明了我们方法在常见元强化学习基准领域上能够获得更高的回报，并且具有更好的样本利用效率（高达 15 倍），同时需要很少的超参数调整。此外，我们还在更具挑战性的、高维领域验证了我们的方法，为实现真实世界中的泛化智能体迈出了一步。

Mar, 2024

变形金刚是元强化学习算法

本文介绍了 TrMRL，这是一种运用 Transformer 架构的基于元强化学习的代理（Meta-Reinforcement Learning Algorithm），它结合了最近的工作内存以递归方式构建情境记忆，并利用 self-attention 机制计算和提供有意义的特征以执行最佳任务。研究表明，在高维连续控制环境下，TrMRL 相对于基线模型表现出了相当或优异的收敛性能、采样效率和超出分布范围的概况。

Jun, 2022

循环元元强化学习智能体内部发生了什么？

通过 POMDP 框架解决元 RL 问题的本质，发现递归元 RL 智能体可以被视为在由多个相关任务组成的部分可观测环境中最优地行动的代理，帮助我们理解它们的失败情况和文献中一些有趣的基于模型的结果。

Apr, 2021

多智能体强化学习用于微处理器设计空间探索

本文提出了使用 Multi-Agent RL 来应对硬件体系结构搜索中领域特定定制的挑战，此方法相对于单一智能体，其可扩展性更高且运行更高效。该方法已在设计领域特定 DRAM 内存控制器上得到验证，并表现出在低功耗和延迟等不同目标方面显著优于单一代理强化学习算法，如 Proximal Policy Optimization 和 Soft Actor-Critic。

Nov, 2022

离线元学习探索

通过离线数据，基于贝叶斯强化学习视角提出 Offline Meta Reinforcement Learning 问题，研究如何设计元智能体以快速最大化相同任务分布下不同任务中的奖励收益，探究探索策略、MDP 歧义以及稀疏奖励任务等相关问题，最终拥有超越离线数据中单个 RL 代理的探索策略。

Aug, 2020

引导式元策略搜索

本文提出了一种基于联邦学习的强化学习策略的元学习算法，在不需要大量策略经验数据的情况下，能够加速学习新任务，该算法在控制任务的元强化学习中表现出显著的效果提升和可扩展性，并且可应用于视觉观测领域。

Apr, 2019

RL$^3$: 通过 RL 内外的 RL$^2$ 提升元强化学习

本文提出了一种 RL$^3$ 算法，该算法将 Task-specific action-values 作为 Traditional RL 学到的输入，并通过将 Traditional RL 和 Meta-RL 组合来在 Long-horizon 和 Out-of-distribution 任务中获得更高的累积回报。

Jun, 2023