Jun, 2024

对基于单词奖励引导的文本生成进行批判性研究

TL;DR大型语言模型(LLMs)可以通过人类喜好的对齐显著提高,即所谓的来自人类反馈的强化学习(RLHF)。然而,对于许多用户而言,微调LLM的成本是不可接受的。最近提出的逐标记奖励引导的文本生成(RGTG)方法可绕过LLM微调,它们使用在完整序列上训练的奖励模型来评分在标记级解码期间的部分序列,以引导生成高奖励序列。然而,这些方法迄今为止仅仅是启发式的动机和贫乏的分析。在这项工作中,我们展示了在全序列上训练的奖励模型与评分部分序列不兼容。为缓解这个问题,我们建议明确地在部分序列上训练Bradley-Terry奖励模型,并且在解码时从隐含的标记级策略中自回归采样。我们研究了这个奖励模型和隐含策略的性质。特别地,我们展示了这个策略与两个不同的RLHF策略之比成正比。我们展示了我们简单的方法优于之前的RGTG方法,并且在没有大规模LLM微调的情况下实现了与强大的线下基准的类似性能。