大型语言模型是否可信用于评估？通过代理辩论对大型语言模型作为评估者进行可扩展元评估

Jan, 2024

大型语言模型是否可信用于评估？通过代理辩论对大型语言模型作为评估者进行可扩展元评估

Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate

Steffi Chern, Ethan Chern, Graham Neubig, Pengfei Liu

TL;DR通过多轮讨论辅助的 ScaleEval 元评估框架，充分利用多个交流能力的大语言模型代理进行可伸缩元评估，帮助人工标注员判断最有能力的大语言模型作为评估者，从而显著减轻他们的工作量。

Abstract

Despite the utility of large language models (llms) across a wide range of tasks and scenarios, developing a method for reliably evaluating llms<

发现论文，激发创造

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估LLMs的方法和维度，并总结了LLMs在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

AgentSims：用于大型语言模型评估的开放源码沙盒

使用AgentSims构建任务评估方法，解决现有评估方法的局限性，并提供易于使用的基础设施，供研究人员测试大语言模型的能力。

Aug, 2023

ChatEval：基于多智能体辩论的LLM评估器改进

通过多代理辩论框架，构建了一个名为ChatEval的多代理裁判团队，用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量，分析结果表明ChatEval不仅仅提供文本评分，还提供了模拟人类评估过程以进行可靠评估。

Aug, 2023

基于大型语言模型的评估器能够解决多语种评估的扩展问题吗？

通过对大型语言模型的评估，本文发现LLM-based evaluators在多语言评估方面可能存在偏差，并需要使用本地语言的数据集进行校准。

Sep, 2023

融合评估器与LLMs：Fusion-Eval

利用大型语言模型进行评估的新方法“Fusion-Eval”在SummEval数据集上取得了0.96的Spearman相关性，超过了其他评估方法，在LLM评估领域树立了新的标准。

Nov, 2023

DyVal 2：通过元探测代理动态评估大型语言模型

通过元探测代理 (MPA) 和心理测量学为大型语言模型 (LLM) 设计的动态评估协议，我们对LLMs进行了细致的评估并发现大多数LLMs的性能较差，揭示了基本认知能力与模型规模之间的强相关性，同时MPA还可用作数据增强方法以增强LLMs的性能。

Feb, 2024

重新审视基准与评估：面向大型语言模型的基于代理的探索性动态评估框架

本研究解决了在多个领域中自动评估大型语言模型（LLMs）性能的难题，当前的基准评估方法往往过于僵化且依赖静态数据集。研究提出了“Benchmark+”与“Assessment+”的概念，并基于这些概念提出了名为*TestAgent*的评估框架，展现了其在多种场景下的有效性，具有潜在的实际应用价值。

Oct, 2024

MM-Eval：一种多语言元评估基准，用于将大型语言模型作为评审者和奖励模型

本研究针对大型语言模型在非英语环境中作为评估工具效果不足的问题，提出了一个多语言的评价基准MM-Eval，该基准覆盖了18种语言和六种类别。研究发现，现有语言模型在非英语评估中的效能有显著提升空间，并且存在对低资源语言给予中间分数的倾向。

Oct, 2024

增强大语言模型评估：模糊技巧

本研究面临传统评估指标趋于饱和的问题，提出了一种将现有大语言模型评估转化为逐渐增加难度任务的通用方法，以强调推理能力并揭示原始评估中不明显的性能差异。通过创建新的多项选择测试语料库并进行系列评估，我们的发现揭示了模型间推理能力的比较，尤其突显了OpenAI的o1-preview和Google的gemini-pro-1.5-002之间的区别。

Nov, 2024

增强大语言模型评估：混淆技巧

本文解决了传统大语言模型（LLM）评估指标饱和的问题，提出了一种将现有评估转化为一系列逐步加难任务的新方法。研究结果揭示了不同模型之间的推理能力差异，尤其对OpenAI的o1-preview和Google的gemini-pro-1.5-002模型进行了有效的比较。

Nov, 2024