Jun, 2024

评判裁决者:评估 LLM 裁决者的一致性和脆弱性

TL;DR这篇论文通过对多种语言模型作为判断者的性能进行全面研究,发现了使用 Cohen 的 kappa 作为测度对齐度的重要性,并比较了不同模型之间的判断数据;该研究发现 Llama-3 70B 和 GPT-4 Turbo 语言模型的表现优于人类,然而在排名考生模型方面,JudgeLM-7B 和词汇判断器 Contains 比人类的对齐度低多达 34 分。通过错误分析和其他研究,包括指导长度和仁慈偏见的影响,该论文为今后在判断者角色上使用语言模型提供了宝贵的经验教训。