Feb, 2024

Q-Probe: 语言模型奖励最大化的轻量级方法

TL;DR使用一种称为 Q-probing 的方法,适应预训练语言模型以最大化任务特定的奖励函数,并通过学习模型嵌入空间上的简单线性函数来重新加权候选完成,从而获得在基于地面真实奖励(代码生成)和偏好数据定义的隐式奖励的领域中的增益。