Jul, 2023

结构化信用分配与协调探索

TL;DR使用Boltzmann机器或经常性网络进行协调探索,从而加快多个基于REINFORCE的随机和离散单元的训练速度,甚至超过直接传递估计器(STE)反向传播算法。