在脉冲神经网络中学习快速变化的缓慢

Jan, 2024

在脉冲神经网络中学习快速变化的缓慢

Learning fast changing slow in spiking neural networks

Cristiano Capone, Paolo Muratore

TL;DR强化学习面临着应用于现实问题的巨大挑战，主要源于有限的与环境交互导致的可用数据的稀缺性。本研究引入了生物学上可行的近端策略优化的实现，通过在重要领域中显著减轻这一挑战，提高了学习的效率。

Abstract

reinforcement learning (RL) faces substantial challenges when applied to real-life problems, primarily stemming from the scarcity of available da

reinforcement learning real-life problems scarcity of available data recurrent spiking networks proximal policy optimization

发现论文，激发创造

一种神经形态学架构用于基于实数观测的强化学习

该论文提出了一种新颖的脉冲神经网络 (SNN) 架构，用于解决具有实值观测的强化学习问题，该模型结合了多层事件驱动聚类、时序差分误差调节和资格迹，通过消融实验验证了这些组件对模型性能的显著影响，该网络在经典的强化学习环境中始终优于基于表格的方法，提供了更具硬件效率的强化学习解决方案的发展。

Jul, 2023

分层近端回放：一种用于在线连续学习的近端点方法

在在线连续学习中，通过经验重放防止灾难性遗忘和过拟合的神经网络优化过程可能出现不稳定的轨迹，我们提出了一种解决方案 —— 分层近似重放 (LPR)，通过优化几何图形，平衡新数据和重放数据的学习，但仅允许对过去数据的隐藏激活进行逐渐变化，我们证明 LPR 在多个问题设置下稳定提升了基于重放的在线连续学习方法的性能，不受可用重放内存的影响。

Feb, 2024

使用脉冲神经网络演化学习强化学习任务

本研究基于大自然神经系统的启发，应用突触可塑性规则训练带有局部信息的脉冲神经网络，使其适用于神经形态硬件的在线学习。其目的在于通过应用进化算法，使得各种不同任务的学习过程变得更加简单，通过提供一组各种局部信号、数学算子和全局奖励信号来找到最佳学习规则，我们发现通过这种方法可以成功解决 XOR 和车杆任务，并发现新的学习规则优于文献中的基准规则。

Feb, 2022

使用脑启发的调制强化学习可以提高对环境变化的适应能力

研究提出了一种新的神经元学习规则，它使用突触前输入来调制预测误差，将其嵌入表格和深度 Q 网络强化学习算法中，可以在简单而高动态的任务中胜过传统算法，这提出了一种新的生物智能核心原则。

May, 2022

使用软自我生成指导学习多样化策略

通过使用多样的过去轨迹作为指导，而不是模仿它们，本文提出了一种方法，使得在线强化学习更快、更高效，即使这些轨迹是次优的或未获得高奖励；此外，引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法，与现有的强化学习方法相比，实验结果表明我们提出的算法在多样化探索和避免局部最优方面显著优于基准方法。

Feb, 2024

学习解决信用分配问题

本文提出了一种混合学习方法，即每个神经元使用强化学习策略来学习如何近似反向传播算法提供的梯度，并给出了对于特定类别的网络中，该方法收敛到真实梯度的证明。在前馈和卷积神经网络中，我们经验证明我们的方法学习如何逼近梯度，并且可以匹配或超越精确梯度学习的性能。学习反馈权重提供了一个生物学上可行的机制来实现良好的性能，无需精确的预先指定学习规则。

Jun, 2019

具有预测处理相邻策略优化的高效深度强化学习

人类的大脑通过预测性处理的方式，以较小的资源实现了有效的控制策略，该研究利用预测性处理理论，建立了一个可以预测自身感观状态的循环神经网络模型在强化学习中的应用，并证明该模型在多个游戏中的表现，优于同等时间内的其他同类模型以及人类玩家。

Nov, 2022

随机网络中基于赫比塞塑性的元学习

受生物神经元可塑性启发，我们提出了一种搜索方法，通过寻找突触特异的赫比学习规则，使网络能在智能体的生命周期内持续自组织其权重，从而实现在一些强化学习任务中取得成功，同时对多种感官模态处理方式具有适应性。

Jul, 2020

用遗传算法调整脉冲策略网络的突触连接而非权重

通过遵循昆虫的感觉神经元通路，通过基因算法优化尖峰策略网络（SPN），应用可塑性突触连接解决机器人控制任务，其表现水平达到 DRL 方法的性能水平且具有显著更高的能量效率。

Dec, 2022

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017