BriefGPT.xyz
Ask
alpha
关键词
entropy regularized reinforcement learning
搜索结果 - 1
ACL
从信用分配到熵正则化:神经序列预测的两个新算法
本论文研究了奖励增强最大似然学习的信用分配问题,并在令牌级的 RAML 和熵正则化强化学习之间建立了理论等价性。在两个基准数据集上,我们展示了所提出的算法分别优于 RAML 和 Actor-Critic,为序列预测提供了新的选择。
PDF
6 years ago
Prev
Next