PRD：同行评等与讨论提升基于大型语言模型的评估

Jul, 2023

PRD：同行评等与讨论提升基于大型语言模型的评估

PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations

Ruosen Li, Teerth Patel, Xinya Du

TL;DR研究论文通过引入基于教育领域的 insights 和 lessons，提出了改进大型语言模型评估的新方法，包括利用同行排序算法和同行讨论来提高评估的准确性和与人类判断的一致性，并为探索难以比较的模型提供了空间。

Abstract

Nowadays, the quality of responses generated by different modern large language models (LLMs) are hard to evaluate and compare automatically. Recent studies suggest and predominantly use LLMs as a reference-free metric for open-ended question answering. More specifically, they use the

large language models reference-free metric peer rank algorithm peer discussion model evaluation

发现论文，激发创造

PRE: 基于同行评审的大型语言模型评估器

通过同行评审机制，我们提出了一种能够自动评估大型语言模型的新框架，用于解决评估成本高、泛化能力低以及评估中的偏见等问题。我们在文本摘要任务上进行了广泛实验，结果表明使用单一语言模型评估存在偏见，并证明了我们的同行评审机制的有效性。

Jan, 2024

无需真实标准的大型语言模型排名

大语言模型的评估和排名是一个重要的问题，本研究提出了一种新的方法，在没有任何参考数据的情况下，通过考虑三元组模型相互评估来排名这些模型，实验证明该方法可靠地恢复接近真实的排名，为实际使用提供了可行的低资源机制。

Feb, 2024

LLM 开放环境下的对等评审：自动评估方法

通过使用同行评审机制来自动测量大型语言模型的能力并评估其性能，我们提出了一种新颖的无监督评估方法，并通过为每个语言模型分配可学习的能力参数来调整最终排名，以最大化每个语言模型的能力和得分的一致性，并使用 PEN、CIN 和 LIS 三个指标来评估与人工评级的一致性差距，实验证明了该方法的有效性。

Feb, 2024

与人类判断相一致：大型语言模型评估者中的成对优先关系的作用

使用 Pairwise-preference Search（PAIRS）方法，通过对比评估候选文本，解决了大型语言模型（LLMs）在评估中出现的偏差与不连贯问题。

Mar, 2024

基于预测的大型语言模型排序

使用统计框架，我们可以以一定的概率保证，通过人类和强大的大型语言模型的成对比较排名结果覆盖了人类偏好的真实排名。

Feb, 2024

利用大型语言模型引发信息丰富的文本评价

利用大型语言模型，本研究引入了两种机制，即生成式同伴预测机制（GPPM）和生成式简介同伴预测机制（GSPPM），以扩大同伴预测机制的应用范围至基于文本的报告，并理论上证明当语言模型预测足够准确时，该机制能够激励高质量的反馈。在实证研究中使用了 Yelp 评论数据集和 ICLR OpenReview 数据集，结果表明在 ICLR 数据集上，该机制能够根据期望得分区分人工编写的评论、GPT-4 生成的评论和 GPT-3.5 生成的评论，并且 GSPPM 比 GPPM 更有效地惩罚产生自语言模型的评论。

May, 2024

语言模型可以通过概率差异进行自我评估

通过证明大型语言模型在回答问题时，如果它们更为熟练，显示更均匀的概率分布，我们启发性地讨论了这个问题。在此基础上，我们提出了一种新的自我评估方法 ProbDiff，用于评估各种语言模型的效能。该方法利用被测试的语言模型计算初始回答与修改版本之间的概率差异，避免了额外评估模型的需要，也不依赖于外部的专有模型如 GPT-4。我们的研究结果表明 ProbDiff 在各种情景下如翻译、摘要生成、我们提出的 “小红书” 博客写作等自然语言生成任务以及 AlignBench、MT-Bench 和 AlpacaEval 等语言模型评估基准上取得了与基于 GPT-4 的评估相当的结果。

May, 2024

PRePair: 增强逐点推理的鲁棒指令遵循评估

通过比较点对和逐点评估方法，研究发现逐点评估方法对不必要的偏好具有更强的鲁棒性，而逐点评估器在判断错误时仍能准确识别低质量输出的缺点，这表明大型语言模型在点对评估设置中更受其偏见的影响；为了缓解这个问题，该研究提出了一种将逐点推理方法整合到点对评估中的混合方法，实验结果表明我们的方法在对抗样本中提高了点对评估器的鲁棒性，并在正常样本上保持了准确性。

Jun, 2024

通过辩论评估大型语言模型的性能

基于辩论的自动化基准评估框架可有效评估和比较大型语言模型（LLMs）的性能，同时消除了依赖人类群体的昂贵需求。

Jun, 2024

大型语言模型不是公正的评估器

本文发现了采用大型语言模型（LLMs）作为评判器来评分候选模型生成内容质量的评估范式中的系统偏差。作者提出了两种校准策略来解决这个问题。经过广泛实验，这种方法成功缓解了评估偏差，与人类判断更加接近。为了促进更加强大的大型语言模型比较的未来研究，作者将文章中的技术集成到一个易于使用的工具包 FairEval 中，同时结合了人工注释。

May, 2023