LLM 中大规模评估结果的全面重新评估：多方面的统计方法

Mar, 2024

LLM 中大规模评估结果的全面重新评估：多方面的统计方法

Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach

Kun Sun, Rong Wang, Haitao Liu, Anders Søgaard

TL;DR通过应用 ANOVA、Tukey HSD 测试、GAMM 和聚类技术，本研究对 LLMs 进行了彻底重新审视，针对当前评估方法中的不足之处。我们的研究利用了大量的评估结果数据集，引入了全面的统计方法，为解析 LLM 性能数据提供了一个强大而透明的方法。与先前的研究结果相反，我们的结果挑战了关于新兴能力以及给定训练类型和架构在 LLMs 中的影响的假设。本研究对 LLM 的性能和潜力提供了一个细致入微的视角，通过提供简单可靠的方法来审查和重新评估 LLM 的性能数据。

Abstract

Amidst the rapid evolution of llms, the significance of evaluation in comprehending and propelling these models forward is increasingly paramount. Evaluations have revealed that factors such as scaling, training types

llms evaluation methods performance scores training types architectures

发现论文，激发创造

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估 LLMs 的方法和维度，并总结了 LLMs 在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

评估大型语言模型：综述

该研究综述了大型语言模型的评估方法，并提出了知识与能力评估、对齐评估和安全评估三个主要方面的评估方法，以及涵盖能力、对齐、安全和适用性的综合评估平台的构建。希望该综述能够推动对大型语言模型评估的更多研究兴趣，以促进负责任发展和最大化社会利益，同时最小化潜在风险。

Oct, 2023

大型语言模型在学生论文评价中的应用

本文通过三种场景下的评估：1）不提供指导，2）使用预先规定的评分标准，3）通过论文的两两对比，与实际学生论文一起使用大语言模型（LLM）进行评估，以降低教师的工作量。定量分析结果显示，使用预先规定的评分标准对 LLM 与教师评估之间存在强相关性，尽管存在有关评估质量和稳定性的担忧。因此，对 LLM 的评估意见进行了定性分析，结果表明：1）LLM 可以达到教师的评估能力，2）LLM 评估中的差异应解释为多样性而非混乱，3）人类和 LLM 的评估可以不同且相互补充。综上所述，本文建议将 LLM 视为教师评估委员会的合作伙伴，并为进一步研究提供了方向。

May, 2024

提升 LLMs 的信任度：比较和解释 LLMs 的算法

评估技术在提高大规模语言模型（LLM）的可信度和理解性方面起到了至关重要的作用，通过算法方法和评估指标来评估 LLM 的性能，发现其弱点，并引导其发展以实现更可信赖的应用。

Jun, 2024

揭示以度量为重点的 LLM 评估：挑战与解决方案

NLP 中，大型语言模型（LLMs）的成功推动了其显著突破，本文对 LLM 的评估方法进行了全面探索，提供了选择和解读已使用度量标准的见解，并采用最新的生物医学 LLM 进行了这些度量标准的应用比较，旨在为研究人员提供一个实用的指南，推进对这些大型语言模型的理解和应用。

Apr, 2024

借助 LLMs 促进整体评估：基于情景实验的见解

探索利用大型语言模型（LLM）作为促进多样评估的工具，实验表明 LLM 有效地促进师资讨论，具备从单一场景中泛化和创建评估标准的能力。

May, 2024

评估 LLMs 在时间泛化上的表现

大语言模型的发展迫切需要与语言理解和信息处理的提升相适应的评估方法。我们检查了当前的大语言模型，并揭示了它们在时间推理和偏见方面存在的各种时间偏见。我们提出了一个评估框架 Freshbench，用于动态生成最新的现实世界预测性预测的评估基准。

May, 2024

检查 LLM 评估对基准分布假设的鲁棒性

基准测试作为评估大型语言模型（LLMs）的核心方法已经出现。研究界通常依赖于模型在基准测试的测试提示中的平均性能来评估模型的表现。这一点符合一个假设，即基准测试中的测试提示代表来自真实世界的感兴趣的分布的随机样本。我们注意到这一点通常并不成立；相反，我们认为感兴趣的分布因具体用例而异。我们发现（1）模型在测试提示中的性能相关性是非随机的，（2）考虑到测试提示之间的相关性，可以改变主要基准测试中的模型排名，（3）导致这些相关性的解释因素包括语义相似性和常见的 LLM 失败点。

Apr, 2024

在 LLMs 中平衡专业和通用技能：现代调谐和数据策略的影响

介绍了用于微调和评估大型语言模型（LLMs）用于专门的货币化任务的多方面方法论，目标是在一般语言能力和领域特定技能之间实现平衡。方法论有三个主要组成部分：1）在微调过程中精心混合领域内和通用数据，以实现一般能力和专业能力之间的最佳平衡；2）设计全面的评估框架，包含 45 个问题，旨在评估在功能相关维度（如可靠性、一致性和商业影响）上的表现；3）分析模型大小和持续训练对度量指标的影响，以指导在微调过程中的高效资源分配。本文详细介绍了所提出框架的设计、数据收集、分析技术和验证结果，旨在为企业和研究人员提供行动洞察，以有效地使 LLMs 适应专门的环境。我们还打算公开全面的评估框架，其中包括 45 个量身定制的问题及其相应的评分指南，以促进 LLMs 在专门任务上的透明度与合作。

Oct, 2023

核心竞争力视角下的大型语言模型评估调查

从预训练语言模型（PLM）到大型语言模型（LLM），自然语言处理（NLP）领域已经取得了明显的性能提升和广泛的实际应用。为了解决评估 LLM 的困难，这篇论文调查了关于 LLM 评估的多篇论文，并总结了 LLM 的四个核心能力，包括推理、知识、可靠性和安全性。在这个能力结构下，相似的任务被合并以反映相应的能力，而新的任务也可以轻松地添加到系统中。最后，给出了关于 LLM 评估未来方向的建议。

Aug, 2023