ACLMay, 2024

基于标签敏感奖励的增强学习在自然语言理解中的应用

TL;DR通过引入标签敏感的奖励机制,增强了大规模语言模型在自然语言理解任务中的性能,相比有监督微调模型和基于增强学习的模型,平均性能提升分别为 1.54% 和 0.69%。