ICLRDec, 2019

上下文类别序列生成的自适应相关蒙特卡罗方法

TL;DR该研究提出了一种针对分类序列生成的策略梯度估计器 —— 基于相关性蒙特卡洛树的滚动策略梯度估计器,该方法通过生成一组相关的蒙特卡洛树来控制方差,从而有效地降低了梯度方差,同时可以缩短大词汇场景下分类的生成成本。