基于LLM的评估者是否混淆了NLG质量标准?

Feb, 2024

基于LLM的评估者是否混淆了NLG质量标准?

Are LLM-based Evaluators Confusing NLG Quality Criteria?

Xinyu Hu, Mingqi Gao, Sen Hu, Yang Zhang, Yicheng Chen...

TL;DR通过设计和实际测试，我们发现LLMs在自然语言生成（NLG）评估中存在混淆不同评估标准的问题，这降低了它们的可靠性。为了进一步验证，我们首先总结了一个清晰的层次分类系统，包括11个常见方面的相关标准，然后设计了18种针对不同LLMs评估行为的攻击方法，并进行人工标注验证，揭示了LLMs固有的混淆问题以及其他值得关注的现象，从而为基于LLMs的评估提出了进一步的研究和改进的必要性。

Abstract

Some prior work has shown that llms perform well in nlg evaluation for different tasks. However, we discover that llms seem to confuse dif

发现论文，激发创造

利用大型语言模型进行自然语言生成评估：综述

自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用LLM进行NLG评估的全面概述，包括组织现有基于LLM的评估指标的一致性分类法、批判性评估不同的LLM方法以及比较其在评估NLG输出中的优势和局限性，讨论未解决的挑战，并推动更公平、更先进的NLG评估技术。

Jan, 2024

基于LLM的自然语言生成评估: 现状与挑战

自然语言生成（NLG）的评估是人工智能中一个重要但具有挑战性的问题。本文调查了基于大型语言模型的NLG评估方法，探讨了它们的优势和劣势，讨论了人机合作的NLG评估，并提出了该领域的几个开放问题和未来的研究方向。

Feb, 2024

自动评估方法在面向指导型语言模型中的可靠性研究

我们对基于文本重叠和大型语言模型判断的自动化方法在广泛任务和跨语言环境中的可靠性进行了研究，发现自动评估方法与人类评估者之间的相关性在任务类型不同的情况下存在相当大的变异性。尽管自动评估方法在特定条件下可以近似人类判断，但其可靠性高度依赖于上下文。这些发现强化了我们在开发和评估面向指导的大型语言模型时如何应用和解释自动化方法的理解。

Feb, 2024

评估L的M在检测L回应中的错误

ReaLMistake是第一个错误检测基准工具，包含了LLMs的客观、实际和多样化错误。通过评估12种LLMs的错误检测器，发现LLMs的错误检测性能低于人类，并且解释不可靠，对提示的微小变化敏感而改进困难，同时改进LLMs的流行方法也不能提高错误检测性能。

Apr, 2024

大型语言模型的评估存在不一致和偏见

本研究通过使用SummEval数据集进行一系列分析，证实了大型语言模型作为评估器在以下方面存在偏见和不一致性：（1）体现对低困惑度文本的偏好；（2）显示具有偏见的评分分布；（3）经历多属性判断时的锚定效应。此外，我们分享了配置大型语言模型评估器以减轻这些限制的方法，通过RoSE数据集的实验证明了与最先进的大型语言模型评估器相比的改进。

May, 2024

可解释性检查表在评估员LLMs中的盲点发现

通过引入有针对性的扰动来测试评估者LLMs的能力，研究发现当前评估者LLMs存在显著不足，并强调在实际应用中需谨慎使用。

Jun, 2024

用大型经验研究代替人类法官？跨20个NLP评估任务

评估NLP模型时，使用LLM-generated判断取而代之人为判断的趋势日益增长。我们提供了一个由人工注释的20个NLP数据集的JUDGE-BENCH，并对11个当前的LLM进行全面评估，涵盖公开权重和专有模型，以验证其模拟注释的能力。我们的评估结果表明，每个LLM在与人工判断的相关性方面在不同数据集上存在很大的差异。我们得出结论，LLM尚不具备系统替代NLP中的人类评审员的能力。

Jun, 2024

DHP基准：大型语言模型是否是良好的自然语言生成评估者？

本研究针对现有自然语言生成(NLG)评估中缺乏对大型语言模型(LLMs)能力探索的问题，提出了“层次扰动的辨别力(DHP)”基准框架。该框架通过层次扰动文本数据与统计测试，为LLMs提供量化的评估分数。研究发现，LLMs在不同NLG任务中的评估能力存在显著差异，为LLMs作为NLG评估者的优势与局限性提供了重要见解。

Aug, 2024

大型语言模型在自然语言生成评估中的积极批评者

本研究解决了当前自然语言生成评估中，使用大型语言模型作为“被动批评者”的局限性，提出了一种新颖的“积极批评者”评估协议。该协议允许大型语言模型自我推断任务并动态优化评估标准，实现了与人类评估标准的更强一致性，并在多个评估任务中展现出其有效性和可解释性。

Oct, 2024

增强大语言模型评估：混淆技巧

本文解决了传统大语言模型（LLM）评估指标饱和的问题，提出了一种将现有评估转化为一系列逐步加难任务的新方法。研究结果揭示了不同模型之间的推理能力差异，尤其对OpenAI的o1-preview和Google的gemini-pro-1.5-002模型进行了有效的比较。

Nov, 2024