BriefGPT.xyz
Ask
alpha
关键词
token-level policy optimization
搜索结果 - 1
基于熵正则化的大型语言模型的令牌级策略优化
基于大型语言模型的研究中,引入了一种基于令牌级策略优化的熵调整强化学习方法(ETPO),致力于优化令牌级的语言模型,结果显示 ETPO 在数据科学代码生成任务中取得了良好的性能改进,具有优化交互决策能力的潜力。
PDF
5 months ago
Prev
Next