通过使用 $L^2$ 范数 代替隐藏单元的奖励信号,Weight Maximization 能够解决 REINFORCE 学习规则中出现的高方差问题,使得深度神经网络的训练更加高效。此方法同时解决了反向传播算法中存在的可行性问题,并能够用于训练连续值和离散值单元的神经网络。
Oct, 2020
本文提出了一种混合学习方法,即每个神经元使用强化学习策略来学习如何近似反向传播算法提供的梯度,并给出了对于特定类别的网络中,该方法收敛到真实梯度的证明。在前馈和卷积神经网络中,我们经验证明我们的方法学习如何逼近梯度,并且可以匹配或超越精确梯度学习的性能。学习反馈权重提供了一个生物学上可行的机制来实现良好的性能,无需精确的预先指定学习规则。
Jun, 2019
这篇论文调研了模拟生物可行的信用分配规则在人工神经网络中的多个重要算法,并讨论了它们在不同科学领域的解决方案以及在 CPU、GPU 和神经形态硬件上的优势,最后讨论了未来需要解决的挑战,以使这些算法在实际应用中更加有用。
Feb, 2024
基于生物学可行性的人工神经网络训练方法,采用强化学习机制来训练每个神经元单元,提出了权重最大化的解决方案,分析了权重最大化的理论特性,并提出了无偏权重最大化的变体来加快学习速度和改进渐进性能。
Jul, 2023
通过对受神经生物学启发或影响的人工神经网络中进行信用分配的算法的调查,我们提出了一个分类法,根据学习算法回答复杂自适应神经系统突触可塑性机制的核心问题的方式,整理了不断增长的大脑启发学习过程集合为六个通用家族,并在反向传播和其已知批评的背景下考虑了这些家族,结果旨在鼓励未来在神经仿真系统及其组成学习过程的发展,从而在机器学习、计算神经科学和认知科学之间建立良好的桥梁。
Dec, 2023
提出了一种基于突触可塑性动态的学习规则,该规则通过融合强化学习和非监督学习模拟误差反馈机制和两个重要机制,包括错误反馈系统以及非监督学习。
Mar, 2023
本文介绍了协作强化学习的概念,用于为自主车辆规划和决策模块生成具有挑战性的测试用例,提出了一种基于潜在因素的奖励塑形方法,旨在解决交通场景中多个实体相互作用时的贡献分配问题,并在模拟环境中进行了实验验证。
May, 2023
通过生物学上的神经元网络组合中的多种互补机制,可以在人工神经网络中实现连续学习。
Apr, 2023
在生物神经网络中实现高效的学习需要对个体突触进行适应性调节,然而,由于时空依赖性的限制,目前对于如何进行高效的信用赋值仍然是一个值得研究的问题。本文提出了一种称为广义潜在均衡(GLE)的计算框架,用于在具有时空连续性神经动力学的物理网络中实现完全本地的时空信用赋值,该框架利用了生物神经元可以根据其膜电位相移其输出速率的能力。
Mar, 2024
研究提出了一种新的神经元学习规则,它使用突触前输入来调制预测误差,将其嵌入表格和深度 Q 网络强化学习算法中,可以在简单而高动态的任务中胜过传统算法,这提出了一种新的生物智能核心原则。
May, 2022