Feb, 2024

LLM 开放环境下的对等评审:自动评估方法

TL;DR通过使用同行评审机制来自动测量大型语言模型的能力并评估其性能,我们提出了一种新颖的无监督评估方法,并通过为每个语言模型分配可学习的能力参数来调整最终排名,以最大化每个语言模型的能力和得分的一致性,并使用 PEN、CIN 和 LIS 三个指标来评估与人工评级的一致性差距,实验证明了该方法的有效性。