F-Eval: 使用精细评估方法评估基本能力

Jan, 2024

F-Eval: 使用精细评估方法评估基本能力

F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods

Yu Sun, Keyu Chen, Shujie Wang, Qipeng Guo, Hang Yan...

TL;DR我们提出了 F-Eval，这是一个双语评估基准，旨在评估大型语言模型的基本能力，包括表达能力、常识和逻辑。我们进行了 13 个先进 LLM 的评估，结果显示我们的评估方法与其他评估者相比具有更高的相关系数和更大的区别，并讨论了不同模型大小、维度和归一化方法的影响。我们期望 F-Eval 能促进对 LLMs 基本能力的研究。

Abstract

large language models (LLMs) garner significant attention for their unprecedented performance, leading to an increasing number of researches evaluating LLMs. However, these evaluation benchmarks are limited to as

large language models evaluation benchmarks f-eval subjective tasks llms' fundamental abilities

发现论文，激发创造

融合评估器与 LLMs：Fusion-Eval

利用大型语言模型进行评估的新方法 “Fusion-Eval” 在 SummEval 数据集上取得了 0.96 的 Spearman 相关性，超过了其他评估方法，在 LLM 评估领域树立了新的标准。

Nov, 2023

FoundaBench: 评估大型语言模型在中文基础知识能力上的表现

本研究介绍了 FoundaBench，这是一个旨在严格评估中国语言和文化定制的大型语言模型的基础知识能力的开创性基准。使用 FoundaBench 对 12 个最先进的语言模型进行了全面评估，结果表明在中文语料库上预训练的模型性能更优，同时发现模型的推理和记忆能力存在显著差异。FoundaBench 评估得出的见解为理解大型语言模型的基础知识奠定了新的标准，为未来领域的进展提供了一个强大的框架。

Apr, 2024

FAC$^2$E：通过区分语言和认知来更好地理解大型语言模型的能力

FAC$^2$E 是一个针对大型语言模型 (LLMs) 的能力评估框架，通过提取 LLMs 的中间推理，将特定能力应用过程分解为三个子步骤，并评估每个细分能力的各个子步骤，从而全面区分 LLMs 的语言相关能力和认知相关能力。利用 FAC$^2$E，我们发现模型中知识利用方面存在常见不足，并提出了一种简单、知识增强的方法来缓解这个问题。我们的研究不仅展示了有希望的性能改进，还为未来 LLMs 的发展方向提供了启示。

Feb, 2024

大型语言模型的指令跟随评估

通过引入 Instruction-Following Eval (IFEval) 作为一种简单易复制的评估基准来解决大型语言模型中遵循指令能力的评估问题。该基准专注于一组 “可验证指令”，并构建了约 500 个提示，每个提示包含一个或多个可验证指令。

Nov, 2023

FollowEval: 评估大型语言模型指令遵循能力的多维度基准

这篇论文介绍了 FollowEval 基准测试，通过人工专家设计的测试实例来评估大型语言模型在指令跟随能力方面的表现，测试涵盖了字符串处理、常识推理、逻辑推理、空间推理和响应约束等五个关键维度，并发现这些模型在指令跟随能力方面明显落后于人类，指出了这些模型在这方面还有很大的改进空间。

Nov, 2023

E-EVAL：大型语言模型的全面中国 K-12 教育评估基准

通过介绍首个专为中国 K-12 教育领域设计的综合评估基准 E-EVAL，针对 LLM 在该领域的各种能力提供准确评估。E-EVAL 由 4,351 道初、中、高级别的选择题组成，并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现，中文优先的模型相比于英文优先的模型表现良好，其中许多模型的得分甚至超过了 GPT 4.0。然而，几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的 LLM 在小学阶段的得分并不高于中学阶段的得分。同时，研究结果还表明，思维链技术（CoT）仅在具有挑战性的科学学科上有效，而一键提示对于文科学科更加有益。通过 E-EVAL，旨在分析 LLM 在教育应用中的优势和局限，推动中国 K-12 教育和 LLM 的进步与发展。

Jan, 2024

可解释性检查表在评估员 LLMs 中的盲点发现

通过引入有针对性的扰动来测试评估者 LLMs 的能力，研究发现当前评估者 LLMs 存在显著不足，并强调在实际应用中需谨慎使用。

Jun, 2024

什么是最好的模型？用于大型语言模型的应用驱动评估

通过构建一个应用驱动的评估基准，我们提供了一种选择最佳模型的方法，并推动其应用和发展。

Jun, 2024

FreeEval: 大型语言模型的可靠高效评估的模块化框架

介绍了一个名为 FreeEval 的模块化和可扩展框架，用于可靠高效地自动评估大型语言模型，通过统一的架构整合了各种评估方法，并结合人工评估和数据污染检测等元评估技术，实现了评估结果的公平性。

Apr, 2024

FELM: 大型语言模型真实性评估基准

评估大型语言模型产生的文本的真实性是一个新兴而关键的研究领域，目的是提醒用户潜在错误并引导更可靠的语言模型的开发。为了解决这个问题，我们介绍了一个名为 felm 的大型语言模型真实性评估基准，该基准收集了来自语言模型的响应并以细化的方式注释了真实性标签。通过使用文本片段进行注释，我们可以帮助定位具体的事实错误。然而，我们的实验证实，当前的语言模型在忠实地检测事实错误方面还远远不够满意。

Oct, 2023