LogEval：一套用于大型语言模型在日志分析领域的全面基准套件

Jul, 2024

LogEval：一套用于大型语言模型在日志分析领域的全面基准套件

LogEval: A Comprehensive Benchmark Suite for Large Language Models In Log Analysis

Tianyu Cui, Shiyu Ma, Ziang Chen, Tong Xiao, Shimin Tao...

TL;DR在 AI 运维领域中，对于保证信息系统有序和稳定运行，日志分析至关重要。然而，现有大语言模型在日志分析任务中的表现尚未得到充分验证。为此，我们引入了 LogEval，这是一个综合性基准套件，旨在首次评估大语言模型在不同日志分析任务中的能力。这个基准套件包括日志解析、日志异常检测、日志故障诊断和日志摘要等任务。通过对领先的大语言模型进行严格评估，我们展示了不同大语言模型技术对日志分析性能的影响，重点关注自一致性和少样本上下文学习等方面。我们还讨论了与模型量化、中英文问答评估和提示工程相关的发现。这些发现深入了解了大语言模型在多语言环境中的优势和弱点，以及不同提示策略的有效性。通过采用不同任务的各种评估方法，准确衡量了大语言模型在日志分析中的性能，确保了全面的评估。从 LogEval 评估中获得的见解揭示了大语言模型在日志分析任务中的优势和局限性，为研究人员和从业人员提供了宝贵的指导。

Abstract

log analysis is crucial for ensuring the orderly and stable operation of information systems, particularly in the field of Artificial Intelligence for IT Operations (aiops). Large Language Models (LLMs) have demo

log analysis large language models (llms)aiops benchmark suite log parsing

发现论文，激发创造

OpsEval：一个针对大型语言模型的综合任务导向的 AIOps 基准

LLMs 在 NLP 任务中表现出显著能力，并且在特定领域，特别是 AIOps 领域具有潜在的应用前景。然而，目前 LLMs 在 AIOps 任务中的性能还有待确定。本文介绍了一个为 LLMs 设计的综合任务导向的 AIOps 基准测试 OpsEval，首次评估了 LLMs 在各种能力水平下的关键场景中的表现。

Oct, 2023

PsyEval：一种用于精神健康领域的综合大型语言模型评估基准

目前缺乏对大型语言模型（LLMs）在心理健康领域能力评估的全面基准。因此，我们填补该空白，并引入了首个适用于心理健康领域特点的全面基准，包括六个子任务、三个维度，系统评估 LLMs 在心理健康领域的能力。我们为每个子任务设计了相应的简明提示，并全面评估了八个先进的 LLMs 使用我们的基准。实验结果不仅展示了当前 LLMs 在心理健康方面的改进空间，还揭示了未来模型优化的潜在方向。

Nov, 2023

SciEval: 一个用于科学研究的多级大型语言模型评估基准

这篇论文提出了 SciEval 基准评估体系，以解决现有预先收集客观问题的数据泄露问题和缺乏主观问答能力评估的问题。SciEval 基于 Bloom 的认知分类学，覆盖了四个维度，系统评估科学研究能力。研究者进行了全面的实验证明，尽管 GPT-4 在与其他 LLMs 相比取得了最先进的表现，但仍有很大的改进空间，特别是在动态问题方面。数据和代码现已公开。

Aug, 2023

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估 LLMs 的方法和维度，并总结了 LLMs 在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

LLMEval：大型语言模型评估初探

最近，大型语言模型的评估已成为一个热门的研究领域。本文分析了不同评估方法，比较了各种标准和评分系统，在多个任务和测试中使用了不同的评估者和评分方法，提出了一个新的数据集 LLMEval，并对 20 个大型语言模型进行了评估，得出了 10 个结论，为将来的语言模型评估提供了一些启示。

Dec, 2023

E-EVAL：大型语言模型的全面中国 K-12 教育评估基准

通过介绍首个专为中国 K-12 教育领域设计的综合评估基准 E-EVAL，针对 LLM 在该领域的各种能力提供准确评估。E-EVAL 由 4,351 道初、中、高级别的选择题组成，并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现，中文优先的模型相比于英文优先的模型表现良好，其中许多模型的得分甚至超过了 GPT 4.0。然而，几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的 LLM 在小学阶段的得分并不高于中学阶段的得分。同时，研究结果还表明，思维链技术（CoT）仅在具有挑战性的科学学科上有效，而一键提示对于文科学科更加有益。通过 E-EVAL，旨在分析 LLM 在教育应用中的优势和局限，推动中国 K-12 教育和 LLM 的进步与发展。

Jan, 2024

LLM-Eval：用于大型语言模型开放域对话的统一多维自动评估

本文提出了 LLM-Eval，一种针对使用大型语言模型（LLM）的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面，LLM-Eval 可以在单个模型调用中进行。我们对 LLM-Eval 在各种基准数据集上的性能进行了全面评估，表明它相对于最先进的评估方法具有高效性和适应性。同时，该分析还强调了选择适当的 LLM 和解码策略以获得准确评估结果的重要性。LMM-Eval 为评估开放领域对话系统提供了一种多功能且强大的解决方案，可以简化评估过程并在不同场景中提供一致的性能。

May, 2023

多阶段逻辑推理能力评估的目标：Multi-LogiEval

为了评估大型语言模型在人类式的多步逻辑推理方面的能力，我们提出了一种综合评估数据集 Multi-LogiEval，该数据集囊括了多步逻辑推理、各种推理规则和深度，并覆盖了命题逻辑、一阶逻辑和非单调逻辑等三种逻辑类型。实验结果表明，随着推理步骤 / 深度的增加，语言模型的性能显著下降（在深度为 1 时平均准确率约为 68%，深度为 5 时约为 43%）。我们相信 Multi-LogiEval 将有助于以后评估和提升大型语言模型的逻辑推理能力。

Jun, 2024

S3Eval：一套针对大型语言模型的综合、可扩展、系统评估套件

使用合成任务来评估大型语言模型（LLMs）的研究方法 S3Eval，在 S3Eval 与真实世界基准测试之间存在强相关性，同时揭示了模型性能的一些深度分析和反直觉趋势。

Oct, 2023

FinEval：适用于大型语言模型的中文金融领域知识评估基准

使用 FinEval 基准测试，评估了当前中文和英文大型语言模型在金融领域知识方面的表现，结果显示只有 GPT-4 在不同提示设置下实现了接近 70% 的准确度，表明大型语言模型在金融领域知识方面具有显著的增长潜力。

Aug, 2023