Apr, 2024

重用奖励:零 - shot 跨语对齐的奖励模型转移

TL;DR本研究探讨了一种简单的零 - shot 跨语言对齐方法,该方法基于偏好数据训练了一个奖励模型,在摘要生成和开放式对话生成任务中,经过全面的评估表明,这种方法在不同语言间的对齐中始终是成功的,包括人工评估:跨语言对齐模型在超过 70%的评估实例中优于未对齐模型。我们还发现,不同语言的奖励模型有时比相同语言的奖励模型具有更好的对齐效果,并且在没有语言特定数据的情况下进行有监督的微调也是对齐中的另一个重要组成部分。