重温具有记忆单子的循环强化学习

Feb, 2024

重温具有记忆单子的循环强化学习

Revisiting Recurrent Reinforcement Learning with Memory Monoids

Steven Morad, Chris Lu, Ryan Kortvelesy, Stephan Liwicki, Jakob Foerster...

TL;DR强化学习中，使用记忆模型如 RNN 和 transformers 来处理部分可观测的马尔科夫决策过程（POMDPs），但这些模型在处理长序列时无法很好地扩展，与一种新兴的线性循环模型相比，其性能较差。我们发现这些模型的循环更新是一个幺半群，从而正式定义了一种新颖的记忆幺半群框架。我们重新审视了强化学习中循环网络的传统批处理方法，突出了理论和实证上的不足。利用记忆幺半群的特性，我们提出了一种新的批处理方法，以改善样本效率，提高回报以及简化强化学习中循环损失函数的实现。

Abstract

In rl, memory models such as RNNs and transformers address Partially Observable Markov Decision Processes (POMDPs) by mapping trajectories to latent Markov states. Neither model scales particularly well to long s

rl memory models partially observable markov decision processes linear recurrent models memory monoid framework

发现论文，激发创造

基于循环无模型强化学习算法可以成为许多 POMDP 问题的强基准线

本文通过比较 21 个环境中基于循环神经网络的无模型强化学习方法的效果，发现精心的架构和超参数决策通常可以实现比专门针对特定 POMDPs 设计的算法更好的表现，提出了一种简单高效的序贯决策模型作为 POMDPs 基线模型。

Oct, 2021

强化学习中的快速遗忘记忆

强化学习中的记忆模型的算法，Fast and Forgetful Memory，通过添加结构先验以及具有对数时间和线性空间复杂度的特点，在循环强化学习算法中实现了更高的奖励，并实现了比循环神经网络 (RNNs) 快两个数量级的训练速度。

Oct, 2023

重新思考 Transformer 在解决 POMDP 中的应用

这篇论文研究了在现实世界场景中，像强化学习（RL）这样的序贯决策算法不可避免地面对具有部分可观察性的环境，着重探讨了流行架构 Transformer 在部分可观察马尔可夫决策过程（POMDPs）中的有效性，并揭示了它的理论局限性，将可被 Transformer 难以建模的正则语言归约为 POMDPs，这对于 Transformer 在学习 POMDP 特定的归纳偏见构成了重大挑战，因为 Transformer 缺乏像 RNNs 这样的其他模型中固有的循环特性，该论文质疑了 Transformer 作为序列模型应用于 RL 的普遍信念，并提出引入逐点循环结构，深度线性循环单元（LRU）作为部分可观察 RL 的一个合适的替代品，并通过实证结果凸显了 Transformer 的次优性能和 LRU 的可观实力。

May, 2024

具有短期记忆的可证明强化学习

本文研究如何学习部分可观察的马尔科夫决策过程。通过构造一种特殊的子类 POMDP，它的隐状态可以通过历史的近期记录来解码。我们使用新颖的瞬时匹配方法，并建立了一组在表格和丰富观察设置下，学习这类问题的近优策略的样本复杂性的上下界，并证明了短期记忆对于这些环境的强化学习已经足够。

Feb, 2022

基于记忆的深度强化学习在 POMDPs 中的应用

本文介绍了一种基于 LSTM-TD3 的方法，该方法引入了记忆组件以应对部分可观察 MDPs，相比其他 DRL 算法，在具有部分可观察 MDPs 的情况下，该方法具有显著的优势，包括处理丢失和噪声观察数据的能力。

Feb, 2021

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015

部分可观察 MDPs 的深度循环 Q 学习

本文介绍了一种新型深度强化学习模型 Deep Recurrent Q-Network (DRQN)，使用 recurrent LSTM 替换 DQN 的第一个后卷积全连接层，DRQN 在每个决策点只看到一个帧，但可以成功地通过时间积分信息，并且在标准的 Atari 游戏和部分不完整的游戏中表现出与 DQN 相似的性能，且在不同可观察性情况下 DRQN 的性能也随之变化。因此，recurrency 是 DQN 的一种可替代方式。

Jul, 2015

循环元元强化学习智能体内部发生了什么？

通过 POMDP 框架解决元 RL 问题的本质，发现递归元 RL 智能体可以被视为在由多个相关任务组成的部分可观测环境中最优地行动的代理，帮助我们理解它们的失败情况和文献中一些有趣的基于模型的结果。

Apr, 2021

低通递归神经网络 - 一种用于发现更长期的相关性的记忆体系结构

本文提出了一种使用简单且有效的记忆策略来扩展反向传播时间的窗口而不需要更长跟踪的方法，并在一些任务中进行了实证探讨。

May, 2018

基于 ODE 的无模型循环强化学习在 POMDP 中的应用

通过结合神经常微分方程和无模型强化学习，我们提出了一种新颖的基于 ODE 的循环模型用于解决部分可观察的马尔可夫决策过程，通过模型推断从历史过渡中提取不可观测的动态相关信息，并通过多个实验验证了方法的有效性和鲁棒性，尤其在处理不规则采样的时间序列方面。

Sep, 2023