Oct, 2023

语言模型的可控解码

TL;DR我们提出了一种控制解码(CD)的创新离策略强化学习方法,以控制语言模型的自回归生成,以实现高回报结果。CD 通过一种用于奖励的值函数(我们称之为前缀评分器)解决了一个离策略强化学习问题,该前缀评分器在推断时间用于引导生成以实现更高的回报结果。我们的实证研究表明,在 Reddit 会话语料库上,CD 作为一种控制机制非常有效。我们还展示了 CD 的设计模块化性,使其能够有效解决一个无需额外复杂性的多目标强化学习问题。最后,我们展示了 CD 可以以一种创新的分块方式在推断时间应用,无需进行任何训练时间的更改,从根本上填补了流行的最优 $K$ 策略和标记级强化学习之间的差距。这使得 CD 成为一种有望实现语言模型的对齐的方法。