Oct, 2021

Hindsight网络信用分配:离散随机单元网络中高效的信用分配

TL;DR本文提出了一种新的梯度估计算法HNCA,用于离散随机单元网络的信用分配,该方法通过基于其输出影响其子节点的程度来分配信用,证明HNCA产生的无偏梯度估计与REINFORCE估计器相比具有更小的方差,同时计算成本与反向传播相似。