实时循环强化学习

Nov, 2023

Real-Time Recurrent Reinforcement Learning

Julian Lemmel, Radu Grosu

TL;DR我们提出了一种新颖的强化学习算法，名为实时循环强化学习 (RTRRL)，通过利用随机反馈局部在线学习 (RFLO) 近似实时递归学习 (RTRL) 来计算循环神经网络参数的梯度，并结合具有资格迹的时序差分强化学习 (TD (λ))，能在部分可观测马尔可夫决策过程 (POMDPs) 中解决离散和连续控制任务，达到生物可行并超越了传统的时间反向传播算法 (BPTT)。该方法模拟哺乳动物大脑奖励途径的生物神经网络进行学习。

Abstract

Recent advances in reinforcement learning, for partially-observable Markov decision processes (pomdps), rely on the biologically implausible back

reinforcement learning pomdps backpropagation through time algorithm real-time recurrent reinforcement learning biological neural networks

发现论文，激发创造

利用稀疏连接和选择性学习的在线实时递归学习

这篇论文介绍了一种基于循环神经网络的状态构建方法，提出了能够让实时递归学习可扩展的两个约束条件，并在基准测试和政策评估中证明了其有效性。

Jan, 2023

探索实时循环学习的优缺点

本文研究了将实时递归学习和策略梯度相结合的演员 - 评论员方法在 DMLab、ProcGen 和 Atari-2600 环境中的应用，结果表明，在 DMLab 记忆任务中，我们的系统相比于训练了 10 B 帧的 IMPALA 和 R2D2 基线的系统，只需训练不到 1.2 B 个环境帧就能够达到很好的性能表现。

May, 2023

使用随机克罗内克因子逼近实时循环学习

本文提出了一种使用 Kronecker 分解逼近梯度的 KF-RTRL 算法，通过在一个合理的假设下，理论分析表明，引入的噪音稳定，且渐近比 UORO 算法小，对于一类大的 RNNs，KF-RTRL 是一个无偏差和内存高效的在线学习算法，实验结果表明 KF-RTRL 算法可用于学习长期依赖性的任务上，并在一些任务上与 TBPTT 算法性能相当，提出了基于 RTRL 的方法可能是 TBPTT 的有前途的替代方法。

May, 2018

通过活性和参数的稀疏组合实现高效实时递归学习

本文提出，对于循环网络，高效的实时递归学习可以通过结合活动稀疏性和参数稀疏性得到显着的计算和存储成本节省，无需使用任何近似来学习过程。

Mar, 2023

低通递归神经网络 - 一种用于发现更长期的相关性的记忆体系结构

本文提出了一种使用简单且有效的记忆策略来扩展反向传播时间的窗口而不需要更长跟踪的方法，并在一些任务中进行了实证探讨。

May, 2018

实时递归学习的最优 Kronecker-Sum 逼近

研究 RNN 的训练方法，提出新的 RTRL 逼近算法 OK-Kronecker-Sum 并证明其优秀性能，经实验验证 OK- Kronecker-Sum 能够在真实世界任务中匹配 TBPTT，在合成字符串记忆任务中优于 TBPTTs。

Feb, 2019

使用多层读出的水库计算深度 Q 网络

这篇论文提出了一种引入储备计算的重放记忆方法，在这种方法中，使用多层神经网络作为读出层可以提高基于递归神经网络的强化学习在四种控制任务中的学习性能。

Mar, 2022

基于生物学启发的循环神经网络学习的反向传播时序算法替代方案

通过实时与合适的自上而下学习信号合并本地可用信息，为循环神经网络提供了高效的学习算法，其中包括了神经形态芯片的在线训练，从而拓宽了大脑中的网络学习理解并在实验中得到了验证。

Jan, 2019

基于扰动的递归神经网络学习

本研究针对循环神经网络提出了一种基于扰动学习的新方法，通过在时间域内进行节点扰动，实现与反向传播方法相媲美的性能，具有超越梯度方法的优势，证明了扰动学习方法是训练循环神经网络的一种多功能替代方案。

May, 2024

在脉冲神经网络中学习快速变化的缓慢

强化学习面临着应用于现实问题的巨大挑战，主要源于有限的与环境交互导致的可用数据的稀缺性。本研究引入了生物学上可行的近端策略优化的实现，通过在重要领域中显著减轻这一挑战，提高了学习的效率。

Jan, 2024