大型语言模型作为评估者的认知偏差基准测试

Sep, 2023

大型语言模型作为评估者的认知偏差基准测试

Benchmarking Cognitive Biases in Large Language Models as Evaluators

Ryan Koo, Minhwa Lee, Vipul Raheja, Jong Inn Park, Zae Myung Kim...

TL;DR大型语言模型（LLMs）作为通过简单提示和上下文学习的自动评估器已被证明有效。本研究汇集了四个不同规模范围的15个LLMs，并通过系统之间的偏好排序来评估它们的输出响应，如System Star优于System Square。我们引入了LLMs作为评估器的认知偏差基准（CoBBLEr）来评估排序输出的质量，该基准用于衡量LLM评估输出中的六种不同的认知偏差，如自我中心偏差，其中模型倾向于高度评估其自身的输出。我们发现LLMs是有偏差的文本质量评估器，在评估中展示出强烈的偏见基准迹象（在所有模型中的比较平均为40%），这对其作为评估器的稳健性提出了质疑。此外，我们检查了人类和机器偏好之间的相关性，并计算出平均Rank-Biased Overlap（RBO）得分为49.6%，表明机器偏好与人类不一致。根据我们的发现，LLMs可能仍然不能用于与人类偏好对齐的自动注释。我们的项目页面位于此https URL。

Abstract

large language models (LLMs) have recently been shown to be effective as automatic evaluators with simple prompting and in-context learning. In this work, we assemble 15 LLMs of four different size ranges and eva