Feb, 2024

基于熵正则化的大型语言模型的令牌级策略优化

TL;DR基于大型语言模型的研究中,引入了一种基于令牌级策略优化的熵调整强化学习方法(ETPO),致力于优化令牌级的语言模型,结果显示 ETPO 在数据科学代码生成任务中取得了良好的性能改进,具有优化交互决策能力的潜力。