BriefGPT.xyz
Ask
alpha
关键词
blockwise fashion
搜索结果 - 1
语言模型的可控解码
我们提出了一种控制解码(CD)的创新离策略强化学习方法,以控制语言模型的自回归生成,以实现高回报结果。CD 通过一种用于奖励的值函数(我们称之为前缀评分器)解决了一个离策略强化学习问题,该前缀评分器在推断时间用于引导生成以实现更高的回报结果
→
PDF
9 months ago
Prev
Next