ICMLJun, 2022

变形金刚是元强化学习算法

TL;DR本文介绍了 TrMRL,这是一种运用 Transformer 架构的基于元强化学习的代理(Meta-Reinforcement Learning Algorithm),它结合了最近的工作内存以递归方式构建情境记忆,并利用 self-attention 机制计算和提供有意义的特征以执行最佳任务。研究表明,在高维连续控制环境下,TrMRL 相对于基线模型表现出了相当或优异的收敛性能、采样效率和超出分布范围的概况。