PRE: 基于同行评审的大型语言模型评估器
在评估自然语言生成的过程中,使用大型语言模型 (LLMs) 作为人类评判的替代方法是一种最新的趋势。然而,本研究发现其评估结果存在偏见。为解决这一问题,提出了多维度独立评估系统 (Multi-Elo Rating System),在提高 LLM 评估质量方面取得了显著成效,但对众包评估没有明显改善,需要进一步探索和改进。
Jul, 2023
大语言模型(LLMs)的评估方法是研究这些模型的重要组成部分,这篇综述介绍了评估LLMs的方法和维度,并总结了LLMs在不同任务中的成功案例、失败案例和未来挑战。
Jul, 2023
通过对大型语言模型的评估,本文发现LLM-based evaluators在多语言评估方面可能存在偏差,并需要使用本地语言的数据集进行校准。
Sep, 2023
使用大型语言模型(LLMs)评估文本质量近来变得流行。本文分析了LLM评估(Chiang和Lee,2023)和G-Eval(Liu et al.,2023),讨论了评估过程中的细节如何改变LLMs给出的评分与人类评分的相关性。我们发现G-Eval中使用的自动思维链(CoT)并不总是使G-Eval与人类评分更加一致。我们还表明,强制LLM仅输出数字评分,如G-Eval中所示,是不理想的。最后,我们揭示出要求LLM解释其自身评分会持续改善ChatGPT与人类评分之间的相关性,并在两个元评估数据集上推动了最新技术的相关性。
Oct, 2023
最近,大型语言模型的评估已成为一个热门的研究领域。本文分析了不同评估方法,比较了各种标准和评分系统,在多个任务和测试中使用了不同的评估者和评分方法,提出了一个新的数据集LLMEval,并对20个大型语言模型进行了评估,得出了10个结论,为将来的语言模型评估提供了一些启示。
Dec, 2023
通过使用同行评审机制来自动测量大型语言模型的能力并评估其性能,我们提出了一种新颖的无监督评估方法,并通过为每个语言模型分配可学习的能力参数来调整最终排名,以最大化每个语言模型的能力和得分的一致性,并使用PEN、CIN和LIS三个指标来评估与人工评级的一致性差距,实验证明了该方法的有效性。
Feb, 2024
本研究通过使用SummEval数据集进行一系列分析,证实了大型语言模型作为评估器在以下方面存在偏见和不一致性:(1)体现对低困惑度文本的偏好;(2)显示具有偏见的评分分布;(3)经历多属性判断时的锚定效应。此外,我们分享了配置大型语言模型评估器以减轻这些限制的方法,通过RoSE数据集的实验证明了与最先进的大型语言模型评估器相比的改进。
May, 2024
本文探讨了当前大型语言模型评估框架的差异性和不足之处,填补了评估方法多样性所带来的研究空白。通过对不同评估方法的深入分析,提出了更为标准化和全面的评估机制,以提升自然语言处理领域的模型评估水平。研究发现,现有框架的改进将显著推动LLMs的性能评估和实际应用。
Jul, 2024
本研究解决了大语言模型(LLMs)评估中的高成本和系统性偏见问题,提出了一种基于同行评审的自动化评估框架Auto-PRE。研究发现,Auto-PRE在三个任务上的实验结果表明,其在成本较低的情况下实现了最新的评估性能,并且突出了提示策略和评估格式对评估效果的影响,为未来方法优化提供了指导。
Oct, 2024