使用多层读出的水库计算深度 Q 网络
通过构建基于 QRNN 的储层,并利用 QLSTM 构建量子强化学习代理,本文提出了一种新方法以应对 QRNN 在 QRL 中训练低效的挑战,并使用异步优势演员 - 评论家算法进行训练。通过数值模拟验证了 QLSTM-Reservoir RL 框架的有效性,并通过与完全训练的 QLSTM RL 模型在相同架构和训练设置下的性能进行评估。
Sep, 2023
本文研究使用循环神经网络以及储备计算和时域反向传播来预测高维和低维复杂系统的时空动态,结果表明:对于长期预测混沌系统,当全部状态动态数据用于训练时,储备计算方法的预测性能优于时域反向传播,但在使用低维数据时时域反向传播方法表现更好。同时该研究还首次量化了使用时域反向传播方法的 Lyapunov 谱。
Oct, 2019
本文研究了将实时递归学习和策略梯度相结合的演员 - 评论员方法在 DMLab、ProcGen 和 Atari-2600 环境中的应用,结果表明,在 DMLab 记忆任务中,我们的系统相比于训练了 10 B 帧的 IMPALA 和 R2D2 基线的系统,只需训练不到 1.2 B 个环境帧就能够达到很好的性能表现。
May, 2023
我们提出了一种新颖的强化学习算法,名为实时循环强化学习 (RTRRL),通过利用随机反馈局部在线学习 (RFLO) 近似实时递归学习 (RTRL) 来计算循环神经网络参数的梯度,并结合具有资格迹的时序差分强化学习 (TD (λ)),能在部分可观测马尔可夫决策过程 (POMDPs) 中解决离散和连续控制任务,达到生物可行并超越了传统的时间反向传播算法 (BPTT)。该方法模拟哺乳动物大脑奖励途径的生物神经网络进行学习。
Nov, 2023
本文介绍了使用量子循环神经网络和深度 Q-learning 算法来解决部分可观察环境中的量子强化学习问题,并且在数值模拟中证明了该方法在标准基准测试如 Cart-Pole 中的结果比经典 DRQN 更加稳定和具有更高的平均分数。
Oct, 2022
使用递归卷积神经网络的值迭代,以及部分可观测环境下的状态信念传递和最佳行动选择来更好地利用强化学习问题的固有结构,通过 RCNNs 回传梯度允许系统显式地学习与底层 MDP 相关联的变换模型和奖励函数,这是经典基于模型的 RL 的一种优秀替代方法。我们通过机器人规划问题的仿真来评估所提出的算法,并展示了我们框架降低重新规划成本、学习准确的 MDP 模型以及使用学习的模型重新规划以实现接近最优策略的能力。
Jan, 2017
该研究提出一种新型的多时间尺度随机循环神经网络用于强化学习,可以自主学习抽象的子目标并自我开发行为层次结构,在挑战性的连续控制任务中确保了比起从头开始训练更快的再学习。同时,研究发现,当神经活动遵循随机动态时,可以实现更好的表现。
Jan, 2019