Jan, 2024

PRE: 基于同行评审的大型语言模型评估器

TL;DR通过同行评审机制,我们提出了一种能够自动评估大型语言模型的新框架,用于解决评估成本高、泛化能力低以及评估中的偏见等问题。我们在文本摘要任务上进行了广泛实验,结果表明使用单一语言模型评估存在偏见,并证明了我们的同行评审机制的有效性。