超越指标：对大型语言模型评估框架变异性的批判性分析

Jul, 2024

超越指标：对大型语言模型评估框架变异性的批判性分析

Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks

Marco AF Pimentel, Clément Christophe, Tathagata Raha, Prateek Munjal, Praveen K Kanithi...

TL;DR本文探讨了当前大型语言模型评估框架的差异性和不足之处，填补了评估方法多样性所带来的研究空白。通过对不同评估方法的深入分析，提出了更为标准化和全面的评估机制，以提升自然语言处理领域的模型评估水平。研究发现，现有框架的改进将显著推动LLMs的性能评估和实际应用。

Abstract

As large Language Models (LLMs) continue to evolve, the need for robust and standardized evaluation benchmarks becomes paramount. Evaluating the performance of these models is a complex challenge that requires careful consideration of various linguistic tasks, model architectures, and

发现论文，激发创造

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估LLMs的方法和维度，并总结了LLMs在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

核心竞争力视角下的大型语言模型评估调查

从预训练语言模型（PLM）到大型语言模型（LLM），自然语言处理（NLP）领域已经取得了明显的性能提升和广泛的实际应用。为了解决评估LLM的困难，这篇论文调查了关于LLM评估的多篇论文，并总结了LLM的四个核心能力，包括推理、知识、可靠性和安全性。在这个能力结构下，相似的任务被合并以反映相应的能力，而新的任务也可以轻松地添加到系统中。最后，给出了关于LLM评估未来方向的建议。

Aug, 2023

基于大型语言模型的评估器能够解决多语种评估的扩展问题吗？

通过对大型语言模型的评估，本文发现LLM-based evaluators在多语言评估方面可能存在偏差，并需要使用本地语言的数据集进行校准。

Sep, 2023

评估大型语言模型：综述

该研究综述了大型语言模型的评估方法，并提出了知识与能力评估、对齐评估和安全评估三个主要方面的评估方法，以及涵盖能力、对齐、安全和适用性的综合评估平台的构建。希望该综述能够推动对大型语言模型评估的更多研究兴趣，以促进负责任发展和最大化社会利益，同时最小化潜在风险。

Oct, 2023

利用大型语言模型进行自然语言生成评估：综述

自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用LLM进行NLG评估的全面概述，包括组织现有基于LLM的评估指标的一致性分类法、批判性评估不同的LLM方法以及比较其在评估NLG输出中的优势和局限性，讨论未解决的挑战，并推动更公平、更先进的NLG评估技术。

Jan, 2024

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对23个最先进的LLM基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

tinyBenchmarks: 用较少的样例评估LLM

通过研究LLM在各种关键基准测试中的表现，我们探索了减少LLM性能评估所需评估次数的策略，并发布了评估工具和微型基准测试，证明这些工具和测试足以可靠高效地复现原始评估结果。

Feb, 2024

揭示以度量为重点的LLM评估：挑战与解决方案

NLP中，大型语言模型（LLMs）的成功推动了其显著突破，本文对LLM的评估方法进行了全面探索，提供了选择和解读已使用度量标准的见解，并采用最新的生物医学LLM进行了这些度量标准的应用比较，旨在为研究人员提供一个实用的指南，推进对这些大型语言模型的理解和应用。

Apr, 2024

评估大型语言模型的系统调查与批判性综述：挑战、局限性与建议

大型语言模型（LLMs）在各个领域中表现出卓越的能力，但在实际应用之前对其进行彻底评估是至关重要的，以确保其可靠性。本文系统地审视了LLM评估过程中导致不一致性和不可靠评估的主要挑战和限制，并根据我们的批判性评估提出了观点和建议，以确保LLM评估具有可重现性、可靠性和稳健性。

Jul, 2024

超越基准测试：大型语言模型评估和评估的新范式

我们提出了一种新的大语言模型（LLMs）测评范式——Benchmarking-Evaluation-Assessment，将LLMs的评估位置从“考试室”转移到“医院”，通过对LLMs进行“体检”，利用特定任务解决作为评估内容，深入分析LLMs存在的问题，并为优化提供建议。

Jul, 2024