May, 2024

大型语言模型的评估存在不一致和偏见

TL;DR本研究通过使用 SummEval 数据集进行一系列分析,证实了大型语言模型作为评估器在以下方面存在偏见和不一致性:(1)体现对低困惑度文本的偏好;(2)显示具有偏见的评分分布;(3)经历多属性判断时的锚定效应。此外,我们分享了配置大型语言模型评估器以减轻这些限制的方法,通过 RoSE 数据集的实验证明了与最先进的大型语言模型评估器相比的改进。