Jul, 2023

结构化信用分配与协调探索

TL;DR使用 Boltzmann 机器或经常性网络进行协调探索,从而加快多个基于 REINFORCE 的随机和离散单元的训练速度,甚至超过直接传递估计器 (STE) 反向传播算法。