Jun, 2024

通过细粒度监督对齐大型语言模型

TL;DR通过细粒度的分词级监督来增强预训练的大规模语言模型(LLM)的对齐,该方法可提高 LLM 性能的绝对改善率高达 5.1%,与传统的 PPO 模型相比,训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答,以确保在必要的地方进行改动,同时保留大部分原始内容。