有用的 LLM 评估调查

Jun, 2024

A Survey of Useful LLM Evaluation

Ji-Lun Peng, Sijia Cheng, Egil Diau, Yung-Yu Shih, Po-Heng Chen...

TL;DR通过讨论 LLMs 的核心能力、评估方法以及应用领域，我们提出了一个两阶段的框架来有效评估 LLMs 的能力，并考察了当前评估方法所面临的挑战和未来发展方向。

Abstract

llms have gotten attention across various research domains due to their exceptional performance on a wide range of complex tasks. Therefore, refined methods to evaluate the capabilities of llms are needed to dete

llms evaluation methods core ability agent challenges

发现论文，激发创造

核心竞争力视角下的大型语言模型评估调查

从预训练语言模型（PLM）到大型语言模型（LLM），自然语言处理（NLP）领域已经取得了明显的性能提升和广泛的实际应用。为了解决评估 LLM 的困难，这篇论文调查了关于 LLM 评估的多篇论文，并总结了 LLM 的四个核心能力，包括推理、知识、可靠性和安全性。在这个能力结构下，相似的任务被合并以反映相应的能力，而新的任务也可以轻松地添加到系统中。最后，给出了关于 LLM 评估未来方向的建议。

Aug, 2023

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估 LLMs 的方法和维度，并总结了 LLMs 在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

小型 LLM 是弱工具学习者：多 LLM 代理

我们提出了一个模块化的多语言模型框架，将大型语言模型能力分解为规划器、调用器和摘要生成器，并通过两阶段训练范式有效地训练该框架，该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果，凸显了其在工具学习中的功效和优势。

Jan, 2024

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

ResearchArena：评估 LLMs 作为研究代理的信息收集和组织能力

利用 ResearchArena 测量大型语言模型代理在进行学术调查的能力，将调查流程分为信息发现、信息选择和信息组织三个阶段，在离线环境中评估代理定位支持材料、对定位的论文进行排名和将其组织成层次知识思维导图的能力，根据初步评估发现大型语言模型方法与基于关键词检索技术相比表现不佳，未来研究具有重要发展机会。

Jun, 2024

LLM 在谈判对话中的多维能力的系统评估

通过分析 LLMs 在各种对话场景中的多面能力，该研究旨在了解 LLMs 如何推进不同方面的谈判研究，包括设计对话系统、提供教学反馈和扩大数据收集实践。结果表明，虽然 GPT-4 在各种任务上表现出优越性，但在主观评估谈判对话和生成上下文恰当且战略优势的回复方面，模型与人类玩家的相关性较差、往往困难重重。

Feb, 2024

评估大型语言模型：综述

该研究综述了大型语言模型的评估方法，并提出了知识与能力评估、对齐评估和安全评估三个主要方面的评估方法，以及涵盖能力、对齐、安全和适用性的综合评估平台的构建。希望该综述能够推动对大型语言模型评估的更多研究兴趣，以促进负责任发展和最大化社会利益，同时最小化潜在风险。

Oct, 2023

关于大型语言模型的规划能力（一项带有提议基准的关键调查）

研究了通用 Web 语料库上训练的语言模型的计划能力，开发了基于国际计划竞赛领域的基准套件，在自治、启发式和人机协作模式下对 LLM 进行了评估，发现自主生成可执行计划的能力非常有限，只有约 3% 的成功率。

Feb, 2023

迈向更好的人机协作：评估 LLM 驱动应用中的任务效用

介绍了一种新的框架 AgentEval，用于验证大型语言模型（LLM）驱动应用程序的实用性，并提供一套与特定应用程序目标相符的评估标准，以全面评估其实用性。

Feb, 2024

面向 LLMs 的临床能力自动评估：度量标准、数据和算法

基于大语言模型的临床能力评估范式，利用自动化评估方法来确保临床方案的安全性和可靠性。

Mar, 2024