BriefGPT.xyz
Ask
alpha
关键词
policy gradient estimator
搜索结果 - 3
大规模语言模型的优化结构裁剪方法
基于优化的结构剪枝方法通过在概率空间中学习剪枝掩码,通过前向传递和策略梯度估计器进行高效优化,实现对大型语言模型的剪枝,并在复杂性和效果方面超越现有方法。
PDF
a month ago
ICLR
通过无放回抽样估计离散随机变量的梯度
本文提出了一种基于无重复抽样的离散随机变量期望无偏估计方法,将其与 REINFORCE 算法相结合,得到了具有内置控制变量的策略梯度估计器,并应用于多种任务得到了良好的效果。
PDF
4 years ago
ICLR
上下文类别序列生成的自适应相关蒙特卡罗方法
该研究提出了一种针对分类序列生成的策略梯度估计器 —— 基于相关性蒙特卡洛树的滚动策略梯度估计器,该方法通过生成一组相关的蒙特卡洛树来控制方差,从而有效地降低了梯度方差,同时可以缩短大词汇场景下分类的生成成本。
PDF
5 years ago
Prev
Next