对大型语言模型评估的调查

Jul, 2023

A Survey on Evaluation of Large Language Models

Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu, Kaijie Zhu...

TL;DR大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估LLMs的方法和维度，并总结了LLMs在不同任务中的成功案例、失败案例和未来挑战。

Abstract

large language models (llms) are gaining increasing popularity in both academia and industry, owing to their unprecedented performance in various applications. As →

发现论文，激发创造

核心竞争力视角下的大型语言模型评估调查

从预训练语言模型（PLM）到大型语言模型（LLM），自然语言处理（NLP）领域已经取得了明显的性能提升和广泛的实际应用。为了解决评估LLM的困难，这篇论文调查了关于LLM评估的多篇论文，并总结了LLM的四个核心能力，包括推理、知识、可靠性和安全性。在这个能力结构下，相似的任务被合并以反映相应的能力，而新的任务也可以轻松地添加到系统中。最后，给出了关于LLM评估未来方向的建议。

Aug, 2023

基于大型语言模型的评估器能够解决多语种评估的扩展问题吗？

通过对大型语言模型的评估，本文发现LLM-based evaluators在多语言评估方面可能存在偏差，并需要使用本地语言的数据集进行校准。

Sep, 2023

评估大型语言模型：综述

该研究综述了大型语言模型的评估方法，并提出了知识与能力评估、对齐评估和安全评估三个主要方面的评估方法，以及涵盖能力、对齐、安全和适用性的综合评估平台的构建。希望该综述能够推动对大型语言模型评估的更多研究兴趣，以促进负责任发展和最大化社会利益，同时最小化潜在风险。

Oct, 2023

利用大型语言模型进行自然语言生成评估：综述

自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用LLM进行NLG评估的全面概述，包括组织现有基于LLM的评估指标的一致性分类法、批判性评估不同的LLM方法以及比较其在评估NLG输出中的优势和局限性，讨论未解决的挑战，并推动更公平、更先进的NLG评估技术。

Jan, 2024

大型语言模型是否可信用于评估？通过代理辩论对大型语言模型作为评估者进行可扩展元评估

通过多轮讨论辅助的 ScaleEval 元评估框架，充分利用多个交流能力的大语言模型代理进行可伸缩元评估，帮助人工标注员判断最有能力的大语言模型作为评估者，从而显著减轻他们的工作量。

Jan, 2024

揭示以度量为重点的LLM评估：挑战与解决方案

NLP中，大型语言模型（LLMs）的成功推动了其显著突破，本文对LLM的评估方法进行了全面探索，提供了选择和解读已使用度量标准的见解，并采用最新的生物医学LLM进行了这些度量标准的应用比较，旨在为研究人员提供一个实用的指南，推进对这些大型语言模型的理解和应用。

Apr, 2024

评估大型语言模型的系统调查与批判性综述：挑战、局限性与建议

大型语言模型（LLMs）在各个领域中表现出卓越的能力，但在实际应用之前对其进行彻底评估是至关重要的，以确保其可靠性。本文系统地审视了LLM评估过程中导致不一致性和不可靠评估的主要挑战和限制，并根据我们的批判性评估提出了观点和建议，以确保LLM评估具有可重现性、可靠性和稳健性。

Jul, 2024

超越指标：对大型语言模型评估框架变异性的批判性分析

本文探讨了当前大型语言模型评估框架的差异性和不足之处，填补了评估方法多样性所带来的研究空白。通过对不同评估方法的深入分析，提出了更为标准化和全面的评估机制，以提升自然语言处理领域的模型评估水平。研究发现，现有框架的改进将显著推动LLMs的性能评估和实际应用。

Jul, 2024

增强大语言模型评估：模糊技巧

本研究面临传统评估指标趋于饱和的问题，提出了一种将现有大语言模型评估转化为逐渐增加难度任务的通用方法，以强调推理能力并揭示原始评估中不明显的性能差异。通过创建新的多项选择测试语料库并进行系列评估，我们的发现揭示了模型间推理能力的比较，尤其突显了OpenAI的o1-preview和Google的gemini-pro-1.5-002之间的区别。

Nov, 2024

增强大语言模型评估：混淆技巧

本文解决了传统大语言模型（LLM）评估指标饱和的问题，提出了一种将现有评估转化为一系列逐步加难任务的新方法。研究结果揭示了不同模型之间的推理能力差异，尤其对OpenAI的o1-preview和Google的gemini-pro-1.5-002模型进行了有效的比较。

Nov, 2024