May, 2023

通过合成反馈对齐大型语言模型

TL;DR本研究提出了一个新的框架,利用奖励建模(RM)方法和模拟高质量演示来进行对齐语言模型的训练,避免了对已对齐的LLMs的依赖,这种方法的结果是,我们的模型ALMoST在对InstructGPT或人工注释指令训练的开放源代码模型中表现良好,我们的7B大小的模型在使用GPT-4作为评判员的A /B测试中表现优异,平均获胜率约为75%。