Nov, 2023

实时循环强化学习

TL;DR我们提出了一种新颖的强化学习算法,名为实时循环强化学习 (RTRRL),通过利用随机反馈局部在线学习 (RFLO) 近似实时递归学习 (RTRL) 来计算循环神经网络参数的梯度,并结合具有资格迹的时序差分强化学习 (TD (λ)),能在部分可观测马尔可夫决策过程 (POMDPs) 中解决离散和连续控制任务,达到生物可行并超越了传统的时间反向传播算法 (BPTT)。该方法模拟哺乳动物大脑奖励途径的生物神经网络进行学习。