ACLMay, 2024
基于标签敏感奖励的增强学习在自然语言理解中的应用
Enhancing Reinforcement Learning with Label-Sensitive Reward for Natural Language Understanding
Kuo Liao, Shuang Li, Meng Zhao, Liqun Liu, Mengge Xue...
TL;DR通过引入标签敏感的奖励机制,增强了大规模语言模型在自然语言理解任务中的性能,相比有监督微调模型和基于增强学习的模型,平均性能提升分别为 1.54% 和 0.69%。