Oct, 2017

反向传播虚空:针对黑盒梯度估计优化控制变量

TL;DR本研究介绍了一种通用框架,用于学习随机变量的黑盒函数的低方差、无偏梯度估计器,并应用于训练离散潜变量模型以及提出了基于优势演员-评论家强化学习算法的无偏、行为条件扩展。