使用多层读出的水库计算深度 Q 网络

Mar, 2022

使用多层读出的水库计算深度 Q 网络

Deep Q-network using reservoir computing with multi-layered readout

Toshitaka Matsuki

TL;DR这篇论文提出了一种引入储备计算的重放记忆方法，在这种方法中，使用多层神经网络作为读出层可以提高基于递归神经网络的强化学习在四种控制任务中的学习性能。

Abstract

recurrent neural network (RNN) based reinforcement learning (RL) is used for learning context-dependent tasks and has also attracted attention as a method with remarkable learning performance in recent research.

recurrent neural network reinforcement learning reservoir computing multi-layered neural network control tasks

发现论文，激发创造

低通递归神经网络 - 一种用于发现更长期的相关性的记忆体系结构

本文提出了一种使用简单且有效的记忆策略来扩展反向传播时间的窗口而不需要更长跟踪的方法，并在一些任务中进行了实证探讨。

May, 2018

量子储池计算的高效量子递归强化学习

通过构建基于 QRNN 的储层，并利用 QLSTM 构建量子强化学习代理，本文提出了一种新方法以应对 QRNN 在 QRL 中训练低效的挑战，并使用异步优势演员 - 评论家算法进行训练。通过数值模拟验证了 QLSTM-Reservoir RL 框架的有效性，并通过与完全训练的 QLSTM RL 模型在相同架构和训练设置下的性能进行评估。

Sep, 2023

利用稀疏连接和选择性学习的在线实时递归学习

这篇论文介绍了一种基于循环神经网络的状态构建方法，提出了能够让实时递归学习可扩展的两个约束条件，并在基准测试和政策评估中证明了其有效性。

Jan, 2023

递归神经网络中的反向传播算法和储备计算用于复杂时空动态预测

本文研究使用循环神经网络以及储备计算和时域反向传播来预测高维和低维复杂系统的时空动态，结果表明：对于长期预测混沌系统，当全部状态动态数据用于训练时，储备计算方法的预测性能优于时域反向传播，但在使用低维数据时时域反向传播方法表现更好。同时该研究还首次量化了使用时域反向传播方法的 Lyapunov 谱。

Oct, 2019

探索实时循环学习的优缺点

本文研究了将实时递归学习和策略梯度相结合的演员 - 评论员方法在 DMLab、ProcGen 和 Atari-2600 环境中的应用，结果表明，在 DMLab 记忆任务中，我们的系统相比于训练了 10 B 帧的 IMPALA 和 R2D2 基线的系统，只需训练不到 1.2 B 个环境帧就能够达到很好的性能表现。

May, 2023

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015

实时循环强化学习

我们提出了一种新颖的强化学习算法，名为实时循环强化学习 (RTRRL)，通过利用随机反馈局部在线学习 (RFLO) 近似实时递归学习 (RTRL) 来计算循环神经网络参数的梯度，并结合具有资格迹的时序差分强化学习 (TD (λ))，能在部分可观测马尔可夫决策过程 (POMDPs) 中解决离散和连续控制任务，达到生物可行并超越了传统的时间反向传播算法 (BPTT)。该方法模拟哺乳动物大脑奖励途径的生物神经网络进行学习。

Nov, 2023

量子深度循环强化学习

本文介绍了使用量子循环神经网络和深度 Q-learning 算法来解决部分可观察环境中的量子强化学习问题，并且在数值模拟中证明了该方法在标准基准测试如 Cart-Pole 中的结果比经典 DRQN 更加稳定和具有更高的平均分数。

Oct, 2022

基于递归卷积神经网络的强化学习

使用递归卷积神经网络的值迭代，以及部分可观测环境下的状态信念传递和最佳行动选择来更好地利用强化学习问题的固有结构，通过 RCNNs 回传梯度允许系统显式地学习与底层 MDP 相关联的变换模型和奖励函数，这是经典基于模型的 RL 的一种优秀替代方法。我们通过机器人规划问题的仿真来评估所提出的算法，并展示了我们框架降低重新规划成本、学习准确的 MDP 模型以及使用学习的模型重新规划以实现接近最优策略的能力。

Jan, 2017

透過週期性神經網路的增強學習，實現行動層次和組合的自我組織

该研究提出一种新型的多时间尺度随机循环神经网络用于强化学习，可以自主学习抽象的子目标并自我开发行为层次结构，在挑战性的连续控制任务中确保了比起从头开始训练更快的再学习。同时，研究发现，当神经活动遵循随机动态时，可以实现更好的表现。

Jan, 2019