BriefGPT.xyz
大模型
Ask
alpha
关键词
label-sensitive reward
搜索结果 - 1
ACL
基于标签敏感奖励的增强学习在自然语言理解中的应用
通过引入标签敏感的奖励机制,增强了大规模语言模型在自然语言理解任务中的性能,相比有监督微调模型和基于增强学习的模型,平均性能提升分别为 1.54% 和 0.69%。
PDF
a month ago
Prev
Next