Sep, 2023

大型语言模型作为评估者的认知偏差基准测试

TL;DR大型语言模型(LLMs)作为通过简单提示和上下文学习的自动评估器已被证明有效。本研究汇集了四个不同规模范围的15个LLMs,并通过系统之间的偏好排序来评估它们的输出响应,如System Star优于System Square。我们引入了LLMs作为评估器的认知偏差基准(CoBBLEr)来评估排序输出的质量,该基准用于衡量LLM评估输出中的六种不同的认知偏差,如自我中心偏差,其中模型倾向于高度评估其自身的输出。我们发现LLMs是有偏差的文本质量评估器,在评估中展示出强烈的偏见基准迹象(在所有模型中的比较平均为40%),这对其作为评估器的稳健性提出了质疑。此外,我们检查了人类和机器偏好之间的相关性,并计算出平均Rank-Biased Overlap(RBO)得分为49.6%,表明机器偏好与人类不一致。根据我们的发现,LLMs可能仍然不能用于与人类偏好对齐的自动注释。我们的项目页面位于此https URL。