利用稀疏连接和选择性学习的在线实时递归学习
我们提出了一种新颖的强化学习算法,名为实时循环强化学习 (RTRRL),通过利用随机反馈局部在线学习 (RFLO) 近似实时递归学习 (RTRL) 来计算循环神经网络参数的梯度,并结合具有资格迹的时序差分强化学习 (TD (λ)),能在部分可观测马尔可夫决策过程 (POMDPs) 中解决离散和连续控制任务,达到生物可行并超越了传统的时间反向传播算法 (BPTT)。该方法模拟哺乳动物大脑奖励途径的生物神经网络进行学习。
Nov, 2023
本文研究了将实时递归学习和策略梯度相结合的演员 - 评论员方法在 DMLab、ProcGen 和 Atari-2600 环境中的应用,结果表明,在 DMLab 记忆任务中,我们的系统相比于训练了 10 B 帧的 IMPALA 和 R2D2 基线的系统,只需训练不到 1.2 B 个环境帧就能够达到很好的性能表现。
May, 2023
研究 RNN 的训练方法,提出新的 RTRL 逼近算法 OK-Kronecker-Sum 并证明其优秀性能,经实验验证 OK- Kronecker-Sum 能够在真实世界任务中匹配 TBPTT,在合成字符串记忆任务中优于 TBPTTs。
Feb, 2019
本文提出了一种使用 Kronecker 分解逼近梯度的 KF-RTRL 算法,通过在一个合理的假设下,理论分析表明,引入的噪音稳定,且渐近比 UORO 算法小,对于一类大的 RNNs,KF-RTRL 是一个无偏差和内存高效的在线学习算法,实验结果表明 KF-RTRL 算法可用于学习长期依赖性的任务上,并在一些任务上与 TBPTT 算法性能相当,提出了基于 RTRL 的方法可能是 TBPTT 的有前途的替代方法。
May, 2018
介绍了 Sparse n-step Approximation (SnAp) 来优化 Real Time Recurrent Learning (RTRL) 的影响矩阵,在保持计算成本低的同时提高了网络的学习速度,特别是在稀疏网络时,n=2 时的 SnAp 能够优于 backpropagation in terms of learning speed when updates are done online。
Jun, 2020
通过实时与合适的自上而下学习信号合并本地可用信息,为循环神经网络提供了高效的学习算法,其中包括了神经形态芯片的在线训练,从而拓宽了大脑中的网络学习理解并在实验中得到了验证。
Jan, 2019
这篇论文提出了一种引入储备计算的重放记忆方法,在这种方法中,使用多层神经网络作为读出层可以提高基于递归神经网络的强化学习在四种控制任务中的学习性能。
Mar, 2022
提出了一种新的在线时空学习算法 OSTTP,它解决了 BPTT 算法所遇到的种种问题,并在两个时态任务中证明了其竞争力;另外,该算法在记忆电阻神经形态硬件系统上得到了实现和展示其灵活性和适用性。
Apr, 2023