Feb, 2024

LLM 对全球表征的非预期影响

TL;DR通过对大型语言模型进行对齐,开发人员可以根据用户的偏好通过多种程序(如强化学习自人类反馈和直接偏好优化)将其用于面向用户的应用程序。然而,当前的评估过程侧重于指令遵循、推理和真实性等基准,而人类偏好并非普遍存在,对特定偏好进行对齐可能会产生意想不到的影响。本文研究了对齐如何影响全球表达的性能,包括英语方言、多语言和全球各国的观点。研究结果表明,当前的对齐程序导致了英语方言和全球观点之间的差异。我们发现对齐改善了多种语言的性能。最后,我们讨论了导致这些意外影响的设计决策,并提出了更公平的偏好调整建议。