LLM 网络更宽更深公平度更高的 LLM 评估器

Aug, 2023

LLM 网络更宽更深公平度更高的 LLM 评估器

Wider and Deeper LLM Networks are Fairer LLM Evaluators

Xinghua Zhang, Bowen Yu, Haiyang Yu, Yangyu Lv, Tingwen Liu...

TL;DR通过使用深度神经网络进行评估，并通过宽度和深度的网络设计来提高 LLMs 的质量评估，研究表明具有多个评估者的宽度网络在改善相关系数和节约成本方面具有最佳性能，同时 WideDeep 在辅助对中文 LLMs 的评估方面取得显著进展。

Abstract

Measuring the quality of responses generated by llms is a challenging task, particularly when it comes to evaluating whether the response is aligned with human preference. A novel approach involves using the LLM itself to make →

llms evaluation neural networks network design widedeep

发现论文，激发创造

超越静态数据集：一种深度交互方法用于 LLM 评估

基于深度交互的大语言模型评估框架能够评估大规模的现实世界任务中大语言模型的性能。

Sep, 2023

可解释性检查表在评估员 LLMs 中的盲点发现

通过引入有针对性的扰动来测试评估者 LLMs 的能力，研究发现当前评估者 LLMs 存在显著不足，并强调在实际应用中需谨慎使用。

Jun, 2024

形式胜于内容：大型语言模型的评估偏见

在评估自然语言生成的过程中，使用大型语言模型 (LLMs) 作为人类评判的替代方法是一种最新的趋势。然而，本研究发现其评估结果存在偏见。为解决这一问题，提出了多维度独立评估系统 (Multi-Elo Rating System)，在提高 LLM 评估质量方面取得了显著成效，但对众包评估没有明显改善，需要进一步探索和改进。

Jul, 2023

大规模语言模型的团体公平透视

通过使用划分群体公平性的全新层次模式，我们提出了对大型语言模型进行偏见评估的方法，并构建了一个跨多个维度的目标属性组合的数据集，GFair。此外，我们还引入了一项新的开放式文本生成任务来揭示大型语言模型中的复杂偏见。通过对流行的大型语言模型进行广泛评估，我们发现存在固有的安全问题。为了从群体公平性的角度减轻大型语言模型的偏见，我们首创了一种新的思维链 (GF-Think) 方法。实验结果表明，此方法在减轻大型语言模型中的偏见以实现公平性方面非常有效。

Dec, 2023

大型语言模型的评估存在不一致和偏见

本研究通过使用 SummEval 数据集进行一系列分析，证实了大型语言模型作为评估器在以下方面存在偏见和不一致性：（1）体现对低困惑度文本的偏好；（2）显示具有偏见的评分分布；（3）经历多属性判断时的锚定效应。此外，我们分享了配置大型语言模型评估器以减轻这些限制的方法，通过 RoSE 数据集的实验证明了与最先进的大型语言模型评估器相比的改进。

May, 2024

PRE: 基于同行评审的大型语言模型评估器

通过同行评审机制，我们提出了一种能够自动评估大型语言模型的新框架，用于解决评估成本高、泛化能力低以及评估中的偏见等问题。我们在文本摘要任务上进行了广泛实验，结果表明使用单一语言模型评估存在偏见，并证明了我们的同行评审机制的有效性。

Jan, 2024

提升 LLMs 的信任度：比较和解释 LLMs 的算法

评估技术在提高大规模语言模型（LLM）的可信度和理解性方面起到了至关重要的作用，通过算法方法和评估指标来评估 LLM 的性能，发现其弱点，并引导其发展以实现更可信赖的应用。

Jun, 2024

LLM-Eval：用于大型语言模型开放域对话的统一多维自动评估

本文提出了 LLM-Eval，一种针对使用大型语言模型（LLM）的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面，LLM-Eval 可以在单个模型调用中进行。我们对 LLM-Eval 在各种基准数据集上的性能进行了全面评估，表明它相对于最先进的评估方法具有高效性和适应性。同时，该分析还强调了选择适当的 LLM 和解码策略以获得准确评估结果的重要性。LMM-Eval 为评估开放领域对话系统提供了一种多功能且强大的解决方案，可以简化评估过程并在不同场景中提供一致的性能。

May, 2023

LLM 开放环境下的对等评审：自动评估方法

通过使用同行评审机制来自动测量大型语言模型的能力并评估其性能，我们提出了一种新颖的无监督评估方法，并通过为每个语言模型分配可学习的能力参数来调整最终排名，以最大化每个语言模型的能力和得分的一致性，并使用 PEN、CIN 和 LIS 三个指标来评估与人工评级的一致性差距，实验证明了该方法的有效性。

Feb, 2024

基于大型语言模型的评估器能够解决多语种评估的扩展问题吗？

通过对大型语言模型的评估，本文发现 LLM-based evaluators 在多语言评估方面可能存在偏差，并需要使用本地语言的数据集进行校准。

Sep, 2023