Jan, 2019

随机计算图中的信用分配技术

TL;DR本文提出一种通用且高效的通过强化学习概念来解决梯度估计算法高方差问题的方法,其中包括引入价值函数、基线和评论家等概念,实现了对随机计算图的梯度下降优化。