ICMLMay, 2019

ARSM:用于梯度反向传播的增强 - 强化 - 交换 - 合并估计器,适用于分类变量

TL;DR使用 ARSM 梯度估算器通过加强 - REINFORCE - 交换 - 合并技术解决了通过分类变量进行反向传播的挑战,具有无偏差和低方差的特点。该方法使用 Dirichlet 分布的期望来重新表达梯度,并使用变量交换和共享随机数来获得显著的方差减少,并为离散动作的策略梯度提供 “尝试和自我评论” 的方差减少方法。