评估大型语言模型的系统调查与批判性综述：挑战、局限性与建议

Jul, 2024

评估大型语言模型的系统调查与批判性综述：挑战、局限性与建议

A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations

HTML

PDF

Md Tahmid Rahman Laskar, Sawsan Alqahtani, M Saiful Bari, Mizanur Rahman, Mohammad Abdullah Matin Khan...

TL;DR大型语言模型（LLMs）在各个领域中表现出卓越的能力，但在实际应用之前对其进行彻底评估是至关重要的，以确保其可靠性。本文系统地审视了LLM评估过程中导致不一致性和不可靠评估的主要挑战和限制，并根据我们的批判性评估提出了观点和建议，以确保LLM评估具有可重现性、可靠性和稳健性。

Abstract

large language models (LLMs) have recently gained significant attention due to their remarkable capabilities in performing diverse tasks across various domains. However, a thorough evaluation of these models is c

发现论文，激发创造

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估LLMs的方法和维度，并总结了LLMs在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

大型语言模型综述

本篇综述论文全面分析了大型语言模型的架构及其分类、训练策略、训练数据集和性能评估，并讨论了未来的研究方向，最后总结了大型语言模型研究的重要发现和关键的架构和训练策略。

Jul, 2023

基于大型语言模型的评估器能够解决多语种评估的扩展问题吗？

通过对大型语言模型的评估，本文发现LLM-based evaluators在多语言评估方面可能存在偏差，并需要使用本地语言的数据集进行校准。

Sep, 2023

评估大型语言模型：综述

该研究综述了大型语言模型的评估方法，并提出了知识与能力评估、对齐评估和安全评估三个主要方面的评估方法，以及涵盖能力、对齐、安全和适用性的综合评估平台的构建。希望该综述能够推动对大型语言模型评估的更多研究兴趣，以促进负责任发展和最大化社会利益，同时最小化潜在风险。

Oct, 2023

LLMEval：大型语言模型评估初探

最近，大型语言模型的评估已成为一个热门的研究领域。本文分析了不同评估方法，比较了各种标准和评分系统，在多个任务和测试中使用了不同的评估者和评分方法，提出了一个新的数据集LLMEval，并对20个大型语言模型进行了评估，得出了10个结论，为将来的语言模型评估提供了一些启示。

Dec, 2023

当下现状？对多指令语言模型评估的呼吁

通过综合分析来自3个评估基准的39项任务、20种不同的大型语言模型和650万个实例的单提示评估结果的脆弱性，我们提出使用一套多样的提示来评估大型语言模型，为特定的使用场景（例如LLM开发人员与对特定下游任务感兴趣的开发人员）设计定制化的评估指标，从而增强对当前大型语言模型真实优势和限制的准确可靠的评估。同时，我们实施了这些标准并对多个模型进行了评估，为当前大型语言模型的真正优势和限制提供了深入的见解。

Dec, 2023

大型语言模型的数据集：综述

该研究论文对大型语言模型数据集进行了综述和分类，包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面；此外还提供了现有数据集资源的综合评估，涵盖8个语言类别和32个领域，包括来自444个数据集的统计信息，共计超过774.5 TB的预训练语料库数据和7亿个实例的其他数据集数据；旨在为研究人员提供整个LLM文本数据集的全貌，并为未来的研究做出贡献。

Feb, 2024

一个以用户为中心的评估大型语言模型的基准

我们提出了从用户角度对大型语言模型进行基准测试，旨在更好地反映实际用户需求，并且我们还构建了用户报告场景数据集以及对10个语言模型服务在满足用户需求方面的基准测试。

Apr, 2024

超越指标：对大型语言模型评估框架变异性的批判性分析

本文探讨了当前大型语言模型评估框架的差异性和不足之处，填补了评估方法多样性所带来的研究空白。通过对不同评估方法的深入分析，提出了更为标准化和全面的评估机制，以提升自然语言处理领域的模型评估水平。研究发现，现有框架的改进将显著推动LLMs的性能评估和实际应用。

Jul, 2024

面向欧洲语言的跨语言大型语言模型评估

本研究解决了在多种欧洲语言中对大型语言模型（LLM）进行一致且有意义评估的挑战，尤其是多语种基准稀缺的问题。我们提出了一种针对欧洲语言的跨语言评估方法，利用翻译的五个广泛使用的基准测试评估40个LLM在21种欧洲语言中的能力，创建了新的多语种评估框架和数据集，从而推动了多语种LLM评估的进一步研究。

Oct, 2024