May, 2019

一种补充学习系统方法的时序差分学习应用

TL;DR本文提出了一种结合DNN和SOM的算法,即CTDL,该算法融合了 neocortical 和 hippocampal 两个系统的优点,使用TD误差更新SOM,并结合SOM和DNN计算动作值,实验证明了相比于经典的DQN方法,CTDL在格子地图和Cart-Pole环境下有较多的优势,证明了互补学习系统对行为评估的有用性、TD误差信号在两个系统之间的传递和所提出方法的生物学可行性。