基于记忆的循环神经网络控制

NIPSDec, 2015

Memory-based control with recurrent neural networks

Nicolas Heess, Jonathan J Hunt, Timothy P Lillicrap, David Silver

TL;DR本研究利用 RNN 与反向传播算法，扩展了两个连续控制的无模型算法，能够成功地解决大量的物理控制问题，包括部分受到噪声干扰而需要信息短暂整合的问题，以及需要在多个时间步骤中保留信息的长期记忆问题，并且使用简化版本的 Morris 水迷宫任务进行了探索与记忆结合问题的研究。同时，通过直接从像素中学习，能够处理高维度的观测问题。

Abstract

partially observed control problems are a challenging aspect of reinforcement learning. We extend two related, model-free algorithms for continuous control -- deterministic policy gradient and stochastic value gradient -- to solve partially observed domains using →

partially observed control problems reinforcement learning recurrent neural networks physical control problems morris water maze

发现论文，激发创造

使用连续内存状态学习深度神经网络策略

通过内部记忆的方法，学习适用于高维连续系统（如机器人操纵器）的策略，通过把记忆状态加到系统的状态和动作空间中，使用有监督学习方法 Guided Policy Search 分解策略搜索问题，并通过轨迹优化和监督学习相结合的方式获得具有有效记忆和回忆策略的复杂策略

Jul, 2015

可变循环模型求解部分可观测控制任务

本文提出了一种在部分可观察环境下应用深度强化学习解决机器人控制任务的算法，该算法包含了两个部分，即可变循环模型和强化学习控制器；实验证明，该算法比其他方法在数据效率和策略学习上表现更好。

Dec, 2019

低通递归神经网络 - 一种用于发现更长期的相关性的记忆体系结构

本文提出了一种使用简单且有效的记忆策略来扩展反向传播时间的窗口而不需要更长跟踪的方法，并在一些任务中进行了实证探讨。

May, 2018

具有短期记忆的可证明强化学习

本文研究如何学习部分可观察的马尔科夫决策过程。通过构造一种特殊的子类 POMDP，它的隐状态可以通过历史的近期记录来解码。我们使用新颖的瞬时匹配方法，并建立了一组在表格和丰富观察设置下，学习这类问题的近优策略的样本复杂性的上下界，并证明了短期记忆对于这些环境的强化学习已经足够。

Feb, 2022

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015

部分可观察 MDPs 的深度循环 Q 学习

本文介绍了一种新型深度强化学习模型 Deep Recurrent Q-Network (DRQN)，使用 recurrent LSTM 替换 DQN 的第一个后卷积全连接层，DRQN 在每个决策点只看到一个帧，但可以成功地通过时间积分信息，并且在标准的 Atari 游戏和部分不完整的游戏中表现出与 DQN 相似的性能，且在不同可观察性情况下 DRQN 的性能也随之变化。因此，recurrency 是 DQN 的一种可替代方式。

Jul, 2015

POMDP 问题的循环自然策略梯度

研究基于循环神经网络（RNNs）的自然策略梯度方法，用于部分可观测的马尔可夫决策过程，其中 RNNs 用于策略参数化和策略评估，以解决非马尔可夫强化学习中的维度问题。通过有限时间和有限宽度的分析，我们证明了 RNN 在具有短期记忆问题的情况下的效率，并明确了所需网络宽度和样本复杂性的界限，同时指出了长期依赖情况下的挑战。

May, 2024

利用剧集记忆解决连续控制问题

本研究使用 Actor-Critic 架构，通过修改 critic 的目标函数，将记忆机制引入连续控制问题中，使用基于经验的记忆缓冲区优先级排列方式，验证了在广泛的行动空间下，使用记忆机制能够提高连续控制中代理的性能，并且相较于最先进的自由模型离线算法，实现了更高的样本效率。

Jun, 2021

通过实验计算梯度：使用 LSTM 和记忆近端策略优化进行黑盒量子控制

本文介绍了黑盒量子控制作为一个有趣的强化学习问题在机器学习领域的应用，并分析了在量子物理中出现的强化学习问题的结构，提出了通过受随机策略梯度训练长短期记忆（LSTM）网络进行参数化的代理，提供了解决这些问题的一般方法，引入了一种基于此分析的近端策略优化（PPO）算法的变体，称为内存近端策略优化（MPPO），并展示了如何将其应用于特定的学习任务，并呈现了数字实验的结果，表明我们的方法在离散和连续控制参数的量子控制的几项学习任务中实现了最先进的结果。

Feb, 2018

使用多层读出的水库计算深度 Q 网络

这篇论文提出了一种引入储备计算的重放记忆方法，在这种方法中，使用多层神经网络作为读出层可以提高基于递归神经网络的强化学习在四种控制任务中的学习性能。

Mar, 2022