ICLRJun, 2019

学习解决信用分配问题

TL;DR本文提出了一种混合学习方法,即每个神经元使用强化学习策略来学习如何近似反向传播算法提供的梯度,并给出了对于特定类别的网络中,该方法收敛到真实梯度的证明。在前馈和卷积神经网络中,我们经验证明我们的方法学习如何逼近梯度,并且可以匹配或超越精确梯度学习的性能。学习反馈权重提供了一个生物学上可行的机制来实现良好的性能,无需精确的预先指定学习规则。