Jun, 2024

公平偏好引导改进人工对齐的大型语言模型判断

TL;DR使用大型语言模型 (LLMs) 进行语言生成质量评估既具有成本效益又不需要参考样本表明其具有很大潜力。然而,LLMs 表现出偏好偏向和对提示设计敏感。在本研究中,我们发现即使在语义上等效的指示下,LLMs 的预测偏好可能非常脆弱和倾斜。因此,我们提出了一种自动的零 - shot 评估导向提示优化框架 ZEPO,旨在产生更公平的偏好决策并提高 LLM 评估器与人类判断的一致性。通过基于偏好决策公平性的零 - shot 学习目标,ZEPO 在代表性元评估基准上显示出显著的性能改进,无需标定数据。我们的发现强调了偏好公平性和人类一致性之间的关键关联,将 ZEPO 定位为弥合 LLM 评估器与人类判断之间差距的有效提示优化器。