超越静态数据集：一种深度交互方法用于 LLM 评估

Sep, 2023

超越静态数据集：一种深度交互方法用于 LLM 评估

Beyond Static Datasets: A Deep Interaction Approach to LLM Evaluation

PDF

Jiatong Li, Rui Li, Qi Liu

TL;DR基于深度交互的大语言模型评估框架能够评估大规模的现实世界任务中大语言模型的性能。

Abstract

large language models (llms) have made progress in various real-world tasks, which stimulates requirements for the →

large language models llms evaluation deep interaction real-world tasks

发现论文，激发创造

LLM-Eval：用于大型语言模型开放域对话的统一多维自动评估

本文提出了 LLM-Eval，一种针对使用大型语言模型（LLM）的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面，LLM-Eval 可以在单个模型调用中进行。我们对 LLM-Eval 在各种基准数据集上的性能进行了全面评估，表明它相对于最先进的评估方法具有高效性和适应性。同时，该分析还强调了选择适当的 LLM 和解码策略以获得准确评估结果的重要性。LMM-Eval 为评估开放领域对话系统提供了一种多功能且强大的解决方案，可以简化评估过程并在不同场景中提供一致的性能。

May, 2023

针对对话推荐系统的合成数据集评估

本研究提出对生成模型产生的数据集进行多方面评估的框架，探讨了各种评估方法的优缺点

Dec, 2022

通过辩论评估大型语言模型的性能

基于辩论的自动化基准评估框架可有效评估和比较大型语言模型（LLMs）的性能，同时消除了依赖人类群体的昂贵需求。

Jun, 2024

METAL：面向多语言元评估

我们提出了一个针对多语言情景下 LLMs 作为评估器的端到端评估框架，并创建了一个用于评估 LLM-based 评估器的精心策划的数据集，该数据集覆盖 10 种语言，包含本族语言者对摘要任务的判断。我们比较了基于 GPT-3.5-Turbo、GPT-4 和 PaLM2 创建的 LLM-based 评估器的性能，结果表明，基于 GPT-4 的 LLM-based 评估器在各种语言中表现最好，而 GPT-3.5-Turbo 的表现不佳。此外，我们对 LLM-based 评估器提供的推理进行分析，发现它往往与人类评判所提供的推理不一致。

Apr, 2024

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估 LLMs 的方法和维度，并总结了 LLMs 在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

LLMEval：大型语言模型评估初探

最近，大型语言模型的评估已成为一个热门的研究领域。本文分析了不同评估方法，比较了各种标准和评分系统，在多个任务和测试中使用了不同的评估者和评分方法，提出了一个新的数据集 LLMEval，并对 20 个大型语言模型进行了评估，得出了 10 个结论，为将来的语言模型评估提供了一些启示。

Dec, 2023

大型语言模型能否替代人类评估？

本文介绍了使用大型语言模型（LLM）代替人类评估来评估人工智能生成的文本的潜力，探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果，并发现 LLM 评估结果与人类专家的评估结果保持一致。

May, 2023

大型语言模型作为自动对话评估器的有效性综合分析

自动对话评估的研究中，大型语言模型、神经度量指标以及元评估数据集的应用，以及模型层次和维度层次的集成对评估性能的影响进行了全面的研究。

Dec, 2023

融合评估器与 LLMs：Fusion-Eval

利用大型语言模型进行评估的新方法 “Fusion-Eval” 在 SummEval 数据集上取得了 0.96 的 Spearman 相关性，超过了其他评估方法，在 LLM 评估领域树立了新的标准。

Nov, 2023

利用大型语言模型进行自然语言生成评估：综述

自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用 LLM 进行 NLG 评估的全面概述，包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性，讨论未解决的挑战，并推动更公平、更先进的 NLG 评估技术。

Jan, 2024