该论文提出了一种新颖的脉冲神经网络 (SNN) 架构,用于解决具有实值观测的强化学习问题,该模型结合了多层事件驱动聚类、时序差分误差调节和资格迹,通过消融实验验证了这些组件对模型性能的显著影响,该网络在经典的强化学习环境中始终优于基于表格的方法,提供了更具硬件效率的强化学习解决方案的发展。
Jul, 2023
在在线连续学习中,通过经验重放防止灾难性遗忘和过拟合的神经网络优化过程可能出现不稳定的轨迹,我们提出了一种解决方案 —— 分层近似重放 (LPR),通过优化几何图形,平衡新数据和重放数据的学习,但仅允许对过去数据的隐藏激活进行逐渐变化,我们证明 LPR 在多个问题设置下稳定提升了基于重放的在线连续学习方法的性能,不受可用重放内存的影响。
Feb, 2024
本研究基于大自然神经系统的启发,应用突触可塑性规则训练带有局部信息的脉冲神经网络,使其适用于神经形态硬件的在线学习。其目的在于通过应用进化算法,使得各种不同任务的学习过程变得更加简单,通过提供一组各种局部信号、数学算子和全局奖励信号来找到最佳学习规则,我们发现通过这种方法可以成功解决 XOR 和车杆任务,并发现新的学习规则优于文献中的基准规则。
Feb, 2022
研究提出了一种新的神经元学习规则,它使用突触前输入来调制预测误差,将其嵌入表格和深度 Q 网络强化学习算法中,可以在简单而高动态的任务中胜过传统算法,这提出了一种新的生物智能核心原则。
May, 2022
通过使用多样的过去轨迹作为指导,而不是模仿它们,本文提出了一种方法,使得在线强化学习更快、更高效,即使这些轨迹是次优的或未获得高奖励;此外,引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法,与现有的强化学习方法相比,实验结果表明我们提出的算法在多样化探索和避免局部最优方面显著优于基准方法。
本文提出了一种混合学习方法,即每个神经元使用强化学习策略来学习如何近似反向传播算法提供的梯度,并给出了对于特定类别的网络中,该方法收敛到真实梯度的证明。在前馈和卷积神经网络中,我们经验证明我们的方法学习如何逼近梯度,并且可以匹配或超越精确梯度学习的性能。学习反馈权重提供了一个生物学上可行的机制来实现良好的性能,无需精确的预先指定学习规则。
Jun, 2019
人类的大脑通过预测性处理的方式,以较小的资源实现了有效的控制策略,该研究利用预测性处理理论,建立了一个可以预测自身感观状态的循环神经网络模型在强化学习中的应用,并证明该模型在多个游戏中的表现,优于同等时间内的其他同类模型以及人类玩家。
Nov, 2022
受生物神经元可塑性启发,我们提出了一种搜索方法,通过寻找突触特异的赫比学习规则,使网络能在智能体的生命周期内持续自组织其权重,从而实现在一些强化学习任务中取得成功,同时对多种感官模态处理方式具有适应性。
Jul, 2020
通过遵循昆虫的感觉神经元通路,通过基因算法优化尖峰策略网络(SPN),应用可塑性突触连接解决机器人控制任务,其表现水平达到 DRL 方法的性能水平且具有显著更高的能量效率。
Dec, 2022
提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法,该方法将敌对训练与零和极小优化相结合,通过训练一个智能体,使其能够在真实系统上的杂乱因素和不确定性下操作,并在多种环境中进行了验证。
Mar, 2017