Jan, 2019

基于期望目标的 GO 梯度

TL;DR提出了一种可以应用于非可重参数化连续或离散随机变量的梯度计算方法(GO 梯度),并且具有与可重参数化方法相同的低方差,同时还开发了一种通过不同分布的传播链规则、将神经网络与常见随机变量相耦合的统计反向传播方法。