May, 2022

使用脑启发的调制强化学习可以提高对环境变化的适应能力

TL;DR研究提出了一种新的神经元学习规则,它使用突触前输入来调制预测误差,将其嵌入表格和深度 Q 网络强化学习算法中,可以在简单而高动态的任务中胜过传统算法,这提出了一种新的生物智能核心原则。