学习解决信用分配问题

ICLRJun, 2019

Learning to solve the credit assignment problem

Benjamin James Lansdell, Prashanth Ravi Prakash, Konrad Paul Kording

TL;DR本文提出了一种混合学习方法，即每个神经元使用强化学习策略来学习如何近似反向传播算法提供的梯度，并给出了对于特定类别的网络中，该方法收敛到真实梯度的证明。在前馈和卷积神经网络中，我们经验证明我们的方法学习如何逼近梯度，并且可以匹配或超越精确梯度学习的性能。学习反馈权重提供了一个生物学上可行的机制来实现良好的性能，无需精确的预先指定学习规则。

Abstract

backpropagation is driving today's artificial neural networks (ANNs). However, despite extensive research, it remains unclear if the brain implements this algorithm. Among neuroscientists, →

backpropagation reinforcement learning hybrid learning gradient approximation neural networks

发现论文，激发创造

随机反馈权重支持深度神经网络学习

提出一种新的深度学习算法，通过随机突触权重与误差信号相乘来学习网络的参数，有效地规避了神经回溯算法在大脑构造中的限制。

Nov, 2014

随机反向传播权重的梯度下降的收敛和对齐

该论文研究 “反馈对齐” 算法的数学特性，通过分析二层网络在平方误差损失下的收敛和对齐，证明在过度参数化的情况下，误差会以指数速度收敛，以及参数对齐需要正则化。该成果对我们理解生物学可行的算法如何不同于 Hebbian 学习方法，具有与非本地反向传播算法相当的性能提供了方法。

Jun, 2021

基于生物学启发的循环神经网络学习的反向传播时序算法替代方案

通过实时与合适的自上而下学习信号合并本地可用信息，为循环神经网络提供了高效的学习算法，其中包括了神经形态芯片的在线训练，从而拓宽了大脑中的网络学习理解并在实验中得到了验证。

Jan, 2019

反馈与局部可塑性学习的学习

本研究使用元学习发现网络如何利用反馈机制和本地、仿生学习规则，以进行在线信用分配，并超越了现有的基于梯度的算法在回归和分类任务方面的性能，特别是在持续学习方面表现优异，结果表明存在一类生物可行的学习机制，不仅匹配梯度下降，而且还克服了其局限性。

Jun, 2020

神经科学启发的机器学习综述

这篇论文调研了模拟生物可行的信用分配规则在人工神经网络中的多个重要算法，并讨论了它们在不同科学领域的解决方案以及在 CPU、GPU 和神经形态硬件上的优势，最后讨论了未来需要解决的挑战，以使这些算法在实际应用中更加有用。

Feb, 2024

在脉冲神经网络中学习快速变化的缓慢

强化学习面临着应用于现实问题的巨大挑战，主要源于有限的与环境交互导致的可用数据的稀缺性。本研究引入了生物学上可行的近端策略优化的实现，通过在重要领域中显著减轻这一挑战，提高了学习的效率。

Jan, 2024

深度卷积网络中的反馈对齐

研究深度人工神经网络中的反向传播学习算法与大脑神经元突触可塑性规律的类比，介绍了不依赖于对称前向和后向突触权重的算法，提出通过加强权重符号一致性的反馈对准法的修改，可以实现与反向传播法相当的性能。这些研究结果表明，促进前向和反馈权重对准的机制对于深度网络的学习是至关重要的。

Dec, 2018

使用脑启发的调制强化学习可以提高对环境变化的适应能力

研究提出了一种新的神经元学习规则，它使用突触前输入来调制预测误差，将其嵌入表格和深度 Q 网络强化学习算法中，可以在简单而高动态的任务中胜过传统算法，这提出了一种新的生物智能核心原则。

May, 2022

直接反馈对齐提供深度神经网络的学习

使用反馈定向方法进行神经网络训练的简单方法能够在卷积网络和深度网络中实现零训练误差，而不需要成对的权重，是迈向生物可行机器学习的一步。

Sep, 2016

自利强化学习智能体竞争学习

通过使用 $L^2$ 范数代替隐藏单元的奖励信号，Weight Maximization 能够解决 REINFORCE 学习规则中出现的高方差问题，使得深度神经网络的训练更加高效。此方法同时解决了反向传播算法中存在的可行性问题，并能够用于训练连续值和离散值单元的神经网络。

Oct, 2020