自然语言处理性能评估指标的全球分析

Apr, 2022

自然语言处理性能评估指标的全球分析

A global analysis of metrics used for measuring performance in natural language processing

Kathrin Blagec, Georg Dorffner, Milad Moradi, Simon Ott, Matthias Samwald

TL;DR本文介绍了自然语言处理领域中用于测量模型性能的度量标准，发现当前使用的大多数指标存在评估不足及解释性差等问题，导致透明性和可重复性的降低。

Abstract

Measuring the performance of natural language processing models is challenging. Traditionally used metrics, such as BLEU and ROUGE, originally devised for machine translation and summarization, have been shown to

发现论文，激发创造

为何我们需要新的自然语言生成评价指标

本文探究了NLG评估中常用的自动化评估方法的局限性，并提出了一种系统和数据独立的新型评价方法，包括先进的基于词汇和基于语法的度量。实验证明，这些方法并不能完全反映人的判断，且表现受到数据与系统的影响。但是，自动评估仍可支持系统的开发，发现系统表现不佳的问题。

Jul, 2017

自然语言生成系统所使用的评价指标调查

该论文介绍了目前自然语言生成领域的研究现状及其衡量标准的快速发展，说明了早期的启发式量化策略难以满足各种不同类型NLG任务的需求，因此需要发展更加准确的自动评估指标，并给出了该领域发展的建议和方向。

Aug, 2020

语言生成评估指标的奇异案例：一则警示故事

本文探讨了自然语言处理中，现有的语言生成系统的自动评估指标的局限性，提出了一些应该受到更多关注的失败案例，鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。

Oct, 2020

自然语言处理基准测试质量相关参数综述

该文介绍了如何通过识别语言属性来发现和衡量数据倾向性，以此建立一个质量量化测度来解决NLP中benchmark存在的数据倾向性问题。

Oct, 2022

评估自然语言生成评价指标：基于测量理论视角

本文提出了一种基于测试设计的方法，用于概念化和评估自然语言生成评价指标的可靠性和有效性，并介绍了关于测量理论的核心概念及评估自然语言生成指标性能的关键方法。通过该框架的使用，本研究旨在促进设计、评估和解释可靠和有效的指标，最终为实际应用中健壮和效果良好的自然语言生成模型的提升做出贡献。

May, 2023

利用大型语言模型进行自然语言生成评估：综述

自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用LLM进行NLG评估的全面概述，包括组织现有基于LLM的评估指标的一致性分类法、批判性评估不同的LLM方法以及比较其在评估NLG输出中的优势和局限性，讨论未解决的挑战，并推动更公平、更先进的NLG评估技术。

Jan, 2024

在自然语言生成系统评估中，引用是否有必要？何时何地？

基于广泛的实验，本研究全面评估了参考无关度量与参考度量在各种自然语言生成任务中的性能，并表明参考无关度量与人类判断有较高相关性，并对语言质量的不足更敏感，然而其有效性因任务而异，受候选文本质量影响。因此，在应用参考无关度量到新任务时，特别是在输入形式不常见或答案空间高度变化时，有必要评估其性能。本研究为自动度量的适当应用以及度量选择对评估性能的影响提供了洞察。

Mar, 2024

揭示以度量为重点的LLM评估：挑战与解决方案

NLP中，大型语言模型（LLMs）的成功推动了其显著突破，本文对LLM的评估方法进行了全面探索，提供了选择和解读已使用度量标准的见解，并采用最新的生物医学LLM进行了这些度量标准的应用比较，旨在为研究人员提供一个实用的指南，推进对这些大型语言模型的理解和应用。

Apr, 2024

超越指标：对大型语言模型评估框架变异性的批判性分析

本文探讨了当前大型语言模型评估框架的差异性和不足之处，填补了评估方法多样性所带来的研究空白。通过对不同评估方法的深入分析，提出了更为标准化和全面的评估机制，以提升自然语言处理领域的模型评估水平。研究发现，现有框架的改进将显著推动LLMs的性能评估和实际应用。

Jul, 2024

自然语言生成中的自动评测指标：当前评估实践的调查

本研究聚焦于自然语言生成（NLG）任务中自动评测指标的使用现状，揭示了现有做法的不足，包括不当的指标选择、缺乏实施细节以及与人类评判的相关性缺失。同时，提出了改进建议，以提高该领域的评估规范性。

Aug, 2024