May, 2024

你确定吗?重新排名:为更好的偏好数据集进行重复排名

TL;DR通过使用强化学习从 AI 反馈 (RLAIF) 来训练大型语言模型 (LLM),使模型输出更符合人类偏好。我们提出了重复排序方法,通过多次对相同响应进行评估并仅训练那些一致排名的响应。使用 62 种语言中的 2,714 个提示,我们从 7 个顶级多语言 LLM 生成了响应,并让 GPT-4 对每个响应进行了五次排名。通过在六种语言中在 MT-Bench 聊天基准测试中进行评估,我们的方法优于在所有可用提示上进行训练的标准实践。我们的工作凸显了 RLAIF 数据集生成中质量与数量的权衡,并提供了一个增强数据集和模型质量的可叠加策略。