关键词policy gradient estimator
搜索结果 - 3
  • 大规模语言模型的优化结构裁剪方法
    PDFa month ago
  • ICLR通过无放回抽样估计离散随机变量的梯度
    PDF4 years ago
  • ICLR上下文类别序列生成的自适应相关蒙特卡罗方法
    PDF5 years ago
Prev
Next