基于记忆的循环神经网络控制
通过内部记忆的方法,学习适用于高维连续系统(如机器人操纵器)的策略,通过把记忆状态加到系统的状态和动作空间中,使用有监督学习方法 Guided Policy Search 分解策略搜索问题,并通过轨迹优化和监督学习相结合的方式获得具有有效记忆和回忆策略的复杂策略
Jul, 2015
本文提出了一种在部分可观察环境下应用深度强化学习解决机器人控制任务的算法,该算法包含了两个部分,即可变循环模型和强化学习控制器;实验证明,该算法比其他方法在数据效率和策略学习上表现更好。
Dec, 2019
本文研究如何学习部分可观察的马尔科夫决策过程。通过构造一种特殊的子类 POMDP,它的隐状态可以通过历史的近期记录来解码。我们使用新颖的瞬时匹配方法,并建立了一组在表格和丰富观察设置下,学习这类问题的近优策略的样本复杂性的上下界,并证明了短期记忆对于这些环境的强化学习已经足够。
Feb, 2022
本文介绍了一种新型深度强化学习模型 Deep Recurrent Q-Network (DRQN),使用 recurrent LSTM 替换 DQN 的第一个后卷积全连接层,DRQN 在每个决策点只看到一个帧,但可以成功地通过时间积分信息,并且在标准的 Atari 游戏和部分不完整的游戏中表现出与 DQN 相似的性能,且在不同可观察性情况下 DRQN 的性能也随之变化。因此,recurrency 是 DQN 的一种可替代方式。
Jul, 2015
研究基于循环神经网络(RNNs)的自然策略梯度方法,用于部分可观测的马尔可夫决策过程,其中 RNNs 用于策略参数化和策略评估,以解决非马尔可夫强化学习中的维度问题。通过有限时间和有限宽度的分析,我们证明了 RNN 在具有短期记忆问题的情况下的效率,并明确了所需网络宽度和样本复杂性的界限,同时指出了长期依赖情况下的挑战。
May, 2024
本研究使用 Actor-Critic 架构,通过修改 critic 的目标函数,将记忆机制引入连续控制问题中,使用基于经验的记忆缓冲区优先级排列方式,验证了在广泛的行动空间下,使用记忆机制能够提高连续控制中代理的性能,并且相较于最先进的自由模型离线算法,实现了更高的样本效率。
Jun, 2021
本文介绍了黑盒量子控制作为一个有趣的强化学习问题在机器学习领域的应用,并分析了在量子物理中出现的强化学习问题的结构,提出了通过受随机策略梯度训练长短期记忆(LSTM)网络进行参数化的代理,提供了解决这些问题的一般方法,引入了一种基于此分析的近端策略优化(PPO)算法的变体,称为内存近端策略优化(MPPO),并展示了如何将其应用于特定的学习任务,并呈现了数字实验的结果,表明我们的方法在离散和连续控制参数的量子控制的几项学习任务中实现了最先进的结果。
Feb, 2018
这篇论文提出了一种引入储备计算的重放记忆方法,在这种方法中,使用多层神经网络作为读出层可以提高基于递归神经网络的强化学习在四种控制任务中的学习性能。
Mar, 2022