评估评估者:测量大型语言模型对任务评估的遵循性
这篇研究通过引入一个具有挑战性的元评估基准LMMBar,调查了大型语言模型(LLMs)在评估指导遵循生成文本方面的效力,发现不同评估器对LMMBar的性能表现不同,最高分的评估器仍有改进的空间,并提出了一套新颖的提示策略来缩小LLM和人类评估器之间的差距。通过LLMBar希望提供对LLM评估器的更多洞察,并促进未来开发更好的指导遵循模型的研究。
Oct, 2023
采用人类和大型语言模型作为评判者(即人类和LLM评判者)来评估现有LLM的性能已经引起了关注。然而,这种方法同时引入了人类和LLM评判者的潜在偏见,对评估结果的可靠性提出了质疑。本文提出了一种针对LLM和人类评判者的5种偏见的新框架。我们整理了一个包含142个样本的数据集,涉及修订后的布鲁姆分类法,并进行了数千次人类和LLM评估。结果表明,人类和LLM评判者在不同程度上都容易受到扰动,并且即使是最先进的评判者也存在相当大的偏见。我们进一步利用它们的弱点对LLM评判者进行了攻击。我们希望我们的工作能让社区意识到人类和LLM评判者在面对扰动时的脆弱性,以及开发健壮评估系统的紧迫性。
Feb, 2024
我们对基于文本重叠和大型语言模型判断的自动化方法在广泛任务和跨语言环境中的可靠性进行了研究,发现自动评估方法与人类评估者之间的相关性在任务类型不同的情况下存在相当大的变异性。尽管自动评估方法在特定条件下可以近似人类判断,但其可靠性高度依赖于上下文。这些发现强化了我们在开发和评估面向指导的大型语言模型时如何应用和解释自动化方法的理解。
Feb, 2024
LLM-as-a-Judge存在固有的偏见,特别是位置偏见,这项研究使用一种框架来系统研究和量化位置偏见,并通过评估实现验证,发现不同评委和任务之间的偏见存在显著差异。研究为评估提供了多维度的框架,指导评委模型的选择,并为未来的研究提供了基础,以实现去偏见策略并提高LLM评估器的可靠性。
Jun, 2024
这篇论文通过对多种语言模型作为判断者的性能进行全面研究,发现了使用Cohen的kappa作为测度对齐度的重要性,并比较了不同模型之间的判断数据;该研究发现Llama-3 70B和GPT-4 Turbo语言模型的表现优于人类,然而在排名考生模型方面,JudgeLM-7B和词汇判断器Contains比人类的对齐度低多达34分。通过错误分析和其他研究,包括指导长度和仁慈偏见的影响,该论文为今后在判断者角色上使用语言模型提供了宝贵的经验教训。
Jun, 2024
评估NLP模型时,使用LLM-generated判断取而代之人为判断的趋势日益增长。我们提供了一个由人工注释的20个NLP数据集的JUDGE-BENCH,并对11个当前的LLM进行全面评估,涵盖公开权重和专有模型,以验证其模拟注释的能力。我们的评估结果表明,每个LLM在与人工判断的相关性方面在不同数据集上存在很大的差异。我们得出结论,LLM尚不具备系统替代NLP中的人类评审员的能力。
Jun, 2024
本研究解决了传统评估指标在评估大型语言模型生成的自由形式文本时存在的局限性。我们提出了一种参考引导裁决的方法,通过多种大型语言模型作为评审进行更可靠的评估,显著提高了与人类判断的一致性。实验结果表明,该方法有效且可扩展,为生成式人工智能的自动评估提供了新思路。
Aug, 2024
本研究解决了当前开放式任务评估方法不足的问题,提出了一种参考引导判决方法,利用多个大语言模型作为评审者自动评估生成文本。实验表明,该方法显著提高了评估的可靠性和准确性,并与人类评估结果相关性强,成为传统指标和人类判断的有效替代方案。
Aug, 2024
本研究探讨了大型语言模型(LLM)在对齐任务中作为评判者的可靠性问题,尤其是评估现有评价指标的可解释性和LM内部不一致性的问题。通过开发新的评价框架,本文揭示了不同提示模板对LLM评判者性能的显著影响,并指出测试的LLM评判者与人类评估者之间存在中等对齐水平。本工作为选择用于对齐任务的LLM评判者提供了重要的见解。
Aug, 2024