Evalverse：大规模语言模型评估的统一和可访问库

Apr, 2024

Evalverse：大规模语言模型评估的统一和可访问库

Evalverse: Unified and Accessible Library for Large Language Model Evaluation

Jihoo Kim, Wonho Song, Dahyun Kim, Yunsu Kim, Yungi Kim...

TL;DREvalverse 是一个集成多个分散评估工具为一体的新型库，通过与 Slack 等通信平台的集成，使了解人工智能知识有限的个人能够轻松请求和接收详细报告，因此，Evalverse 成为一个综合评估工具，为研究人员和从业人员提供了一个集中和易于访问的评估框架。

Abstract

This paper introduces evalverse, a novel library that streamlines the evaluation of large language models (LLMs) by unifying disparate

evalverse large language models evaluation framework communication platforms

发现论文，激发创造

FreeEval: 大型语言模型的可靠高效评估的模块化框架

介绍了一个名为 FreeEval 的模块化和可扩展框架，用于可靠高效地自动评估大型语言模型，通过统一的架构整合了各种评估方法，并结合人工评估和数据污染检测等元评估技术，实现了评估结果的公平性。

Apr, 2024

大型语言模型是否可信用于评估？通过代理辩论对大型语言模型作为评估者进行可扩展元评估

通过多轮讨论辅助的 ScaleEval 元评估框架，充分利用多个交流能力的大语言模型代理进行可伸缩元评估，帮助人工标注员判断最有能力的大语言模型作为评估者，从而显著减轻他们的工作量。

Jan, 2024

UltraEval：一种用于 LLM 灵活全面评估的轻量级平台

UltraEval 是一个轻量级、综合、模块化和高效的用户友好的评估框架，通过重新实现模型评估的三个核心组件（模型、数据和度量），允许在统一评估工作流中自由组合不同的模型、任务、提示和度量，并支持多种模型，提供足够的推理加速。

Apr, 2024

大语言模型时代的数据可视化基准测试：VisEval

提出了一种名为 VisEval 的新的 NL2VIS 基准，该基准通过引入高质量大规模数据集并倡导综合自动化评估方法，揭示了目前研究中普遍存在的挑战并为未来的进一步发展提供了重要的见解。

Jul, 2024

融合评估器与 LLMs：Fusion-Eval

利用大型语言模型进行评估的新方法 “Fusion-Eval” 在 SummEval 数据集上取得了 0.96 的 Spearman 相关性，超过了其他评估方法，在 LLM 评估领域树立了新的标准。

Nov, 2023

LLM-Eval：用于大型语言模型开放域对话的统一多维自动评估

本文提出了 LLM-Eval，一种针对使用大型语言模型（LLM）的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面，LLM-Eval 可以在单个模型调用中进行。我们对 LLM-Eval 在各种基准数据集上的性能进行了全面评估，表明它相对于最先进的评估方法具有高效性和适应性。同时，该分析还强调了选择适当的 LLM 和解码策略以获得准确评估结果的重要性。LMM-Eval 为评估开放领域对话系统提供了一种多功能且强大的解决方案，可以简化评估过程并在不同场景中提供一致的性能。

May, 2023

LogEval：一套用于大型语言模型在日志分析领域的全面基准套件

在 AI 运维领域中，对于保证信息系统有序和稳定运行，日志分析至关重要。然而，现有大语言模型在日志分析任务中的表现尚未得到充分验证。为此，我们引入了 LogEval，这是一个综合性基准套件，旨在首次评估大语言模型在不同日志分析任务中的能力。这个基准套件包括日志解析、日志异常检测、日志故障诊断和日志摘要等任务。通过对领先的大语言模型进行严格评估，我们展示了不同大语言模型技术对日志分析性能的影响，重点关注自一致性和少样本上下文学习等方面。我们还讨论了与模型量化、中英文问答评估和提示工程相关的发现。这些发现深入了解了大语言模型在多语言环境中的优势和弱点，以及不同提示策略的有效性。通过采用不同任务的各种评估方法，准确衡量了大语言模型在日志分析中的性能，确保了全面的评估。从 LogEval 评估中获得的见解揭示了大语言模型在日志分析任务中的优势和局限性，为研究人员和从业人员提供了宝贵的指导。

Jul, 2024

S3Eval：一套针对大型语言模型的综合、可扩展、系统评估套件

使用合成任务来评估大型语言模型（LLMs）的研究方法 S3Eval，在 S3Eval 与真实世界基准测试之间存在强相关性，同时揭示了模型性能的一些深度分析和反直觉趋势。

Oct, 2023

大型语言模型的评估存在不一致和偏见

本研究通过使用 SummEval 数据集进行一系列分析，证实了大型语言模型作为评估器在以下方面存在偏见和不一致性：（1）体现对低困惑度文本的偏好；（2）显示具有偏见的评分分布；（3）经历多属性判断时的锚定效应。此外，我们分享了配置大型语言模型评估器以减轻这些限制的方法，通过 RoSE 数据集的实验证明了与最先进的大型语言模型评估器相比的改进。

May, 2024

PsyEval：一种用于精神健康领域的综合大型语言模型评估基准

目前缺乏对大型语言模型（LLMs）在心理健康领域能力评估的全面基准。因此，我们填补该空白，并引入了首个适用于心理健康领域特点的全面基准，包括六个子任务、三个维度，系统评估 LLMs 在心理健康领域的能力。我们为每个子任务设计了相应的简明提示，并全面评估了八个先进的 LLMs 使用我们的基准。实验结果不仅展示了当前 LLMs 在心理健康方面的改进空间，还揭示了未来模型优化的潜在方向。

Nov, 2023