AAAIOct, 2021

Hindsight 网络信用分配:离散随机单元网络中高效的信用分配

TL;DR本文提出了一种新的梯度估计算法 HNCA,用于离散随机单元网络的信用分配,该方法通过基于其输出影响其子节点的程度来分配信用,证明 HNCA 产生的无偏梯度估计与 REINFORCE 估计器相比具有更小的方差,同时计算成本与反向传播相似。