MathBench：利用分层数学基准评估 LLMs 的理论和应用水平

May, 2024

MathBench：利用分层数学基准评估 LLMs 的理论和应用水平

MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark

Hongwei Liu, Zilong Zheng, Yuxuan Qiao, Haodong Duan, Zhiwei Fei...

TL;DR通过 MathBench 新的基准测试，我们能够全面评估大型语言模型在数学能力方面的表现，首次提供了一个多维度视角，从基础算术到大学数学的不同阶段评估模型的能力，旨在提高对大型语言模型在数学能力方面的评估，为其知识水平和问题解决技能提供更深入的理解。

Abstract

Recent advancements in large language models (LLMs) have showcased significant improvements in mathematics. However, traditional math benchmarks like GSM8k offer a unidimensional perspective, falling short in pro

large language models mathematics benchmark mathematical capabilities evaluation

发现论文，激发创造

SciBench：评估大规模语言模型的大学科学问题解决能力

最近大型语言模型 (LLM) 在许多数学基准上取得显著进展，但大多数基准只涉及初高中科目的问题和多项选择题，且仅限于有限范围的基本算术操作。为解决这些问题，本文引入了一个广泛的基准套件 SciBench，旨在系统地检验复杂科学问题解决所需的推理能力。SciBench 包含两个精心策划的数据集：一个开放集，包含从数学、化学和物理教科书中提取的多领域的大学级科学问题；一个封闭集，包含了计算机科学和数学本科考试中的问题。基于这两个数据集，我们对两个代表性 LLM 进行了深入的基准研究，采用多种提示策略。结果表明，当前 LLM 的表现不尽如人意，综合得分仅为 35.80%。此外，通过详细的用户研究，我们将 LLM 的错误归类为十种问题解决能力。我们的分析表明，没有一种单一的提示策略明显优于其他策略，而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计 SciBench 将催生 LLM 的推理能力进一步发展，从而最终促进科学研究和发现。

Jul, 2023

大型语言模型的心理测量辅助基准测试：数学能力的案例研究

借鉴心理测量学的知识，提出了一种新的基于心理测量的大型（多模态）语言模型（LLMs）评测框架 - PATCH。通过使用该框架，测量了 GPT-4 和 Gemini-Pro-Vision 在 8 年级数学中的熟练程度，并且与 56 个人口进行了比较。同时发布了四个数据集，用于评估和比较 LLM 在中小学数学和科学方面的熟练程度与人口的水平。

Apr, 2024

ConceptMath：大型语言模型数学推理的双语概念评估基准

本研究介绍了 ConceptMath，它是一个双语（英文和中文）的细粒度基准，用于评估大型语言模型的概念级数学推理能力。与评估一般数学推理平均准确率的传统基准不同，ConceptMath 通过将数学问题按照数学概念的层次进行系统组织，从而可以用概念级准确率评估数学推理能力的不同细粒度。在基于我们的 ConceptMath 的基础上，我们评估了广泛范围的大型语言模型，并观察到现有的大型语言模型尽管在传统基准上具有高平均准确率，但在不同数学概念上存在显著的性能差异，甚至在最基本的概念上可能出现灾难性失误。此外，我们还介绍了一种高效的微调策略，以提高现有大型语言模型的弱点。最后，我们希望 ConceptMath 能够指导开发人员了解其模型的细粒度数学能力，并促进基础模型的进一步发展。

Feb, 2024

BIBench：大型语言模型的数据分析知识基准测试

为了评估大型语言模型（LLMs）在商业情报领域中数据分析能力方面的表现，研究引入了 BIBench，一种全面的基准测试。BIBench 评估 LLMs 在商业情报基础知识、知识应用和技术技能三个维度上的能力，并且包含 11 个子任务。另外，研究还开发了 BIChat，一个包含百万个数据点的领域特定数据集，用于对 LLMs 进行优化。通过提供一种对 LLMs 能力进行深入分析的度量标准，BIBench 旨在推动 LLMs 在数据分析领域的发展。

Jan, 2024

CS-Bench: 大型语言模型的全面基准，助力计算机科学掌握

计算机科学（CS）是人类智能复杂性的证明，深刻推动了人工智能和现代社会的发展。我们引入 CS-Bench，这是第一个专门用于评估 LLM 在计算机科学领域性能的双语（中英文）基准，包括大约 5K 个精心策划的测试样本，涵盖计算机科学的 4 个关键领域的 26 个子领域，包括各种任务形式和知识推理的划分。利用 CS-Bench，我们对 30 多个主流 LLM 进行了全面评估，揭示了 CS 性能与模型规模之间的关系，并定量分析了现有 LLM 失败的原因，并强调了知识补充和 CS 特定推理等改进方向。进一步的跨能力实验显示 LLM 在计算机科学领域能力与数学和编码能力之间存在高度相关性。此外，专注于数学和编码的专家 LLM 在几个 CS 子领域也表现出强大的性能。展望未来，我们预见 CS-Bench 将成为 LLM 在 CS 领域应用的基石，并为评估 LLM 的多样化推理能力开辟新的途径。CS-Bench 的数据和评估代码可在此 https URL 上找到。

Jun, 2024

LawBench：大型语言模型法律知识基准评估

大型语言模型在法律领域的能力评估中，提出了全面评估基准 LawBench，并经过广泛测试发现 GPT-4 是在法律领域表现最好的模型，但还有很大提升空间。

Sep, 2023

GSM-Plus: 评估 LLMs 作为数学问题求解器鲁棒性的综合基准

通过对大型语言模型进行广泛的问题变体测试，我们评估了它们的数学推理能力的鲁棒性。结果表明，虽然这些模型在数学推理能力上表现出不同水平，但它们的性能远非稳健。

Feb, 2024

DevBench：软件开发综合基准

最近的大型语言模型 (LLMs) 的进展显著增强了它们的编码能力。然而，现有的基准主要关注编程的简化或隔离方面，如单文件代码生成或存储库问题调试，无法全面衡量真实世界编程活动引发的各种挑战。为此，我们提出了 DevBench，这是一个全面的基准，评估 LLMs 在软件开发生命周期的各个阶段，包括软件设计、环境设置、实施、验收测试和单元测试。DevBench 涵盖了广泛的编程语言和领域，具备高质量的数据收集，并为每个任务设计和验证了仔细设计的指标。经验证实证研究表明，包括 GPT-4-Turbo 在内的当前 LLMs 未能解决 DevBench 中提出的挑战。分析显示，模型在理解存储库中的复杂结构、管理编译过程和掌握高级编程概念方面存在困难。我们的发现为未来 LLMs 的真实世界编程应用的发展提供了可行的洞察。我们的基准可以在此 https URL 获取。

Mar, 2024

LLM 们已经足够先进了吗？一个为大型语言模型提供挑战性问题解决基准的测试

本文介绍了一个新的基准数据集 JEEBench，用于评估 Large Language Models 的问题解决能力，其中包含了 450 个有挑战性的预工程数学、物理和化学问题。本文对 GPT 系列模型进行了评估，发现即使使用 Self-Consistency 和 Chain-of-Thought prompting 等技术，GPT4 的最佳表现仍不到 40％，错误的代数运算和缺乏相关领域知识是造成表现不佳的主要原因。作者希望这个基准数据集能够引导未来使用 Large Language Models 进行问题解决的研究。

May, 2023

UBENCH：使用多项选择题对大型语言模型中的不确定性进行基准测试

针对大型语言模型（LLMs）的可解释性低，现有的评估系统主要考察问题解决能力而忽视了响应的不确定性，为此提出了 UBENCH，一个全面评估 LLM 可靠性的基准，包括了 3,978 个多项选择题，实验结果表明 UBENCH 取得了最先进的性能，同时与需要多次采样的基准方法相比，其单次采样方法显著节省了计算资源。此外，基于 UBENCH，我们评估了 15 个热门的 LLM 的可靠性，发现 GLM4 和 GPT-4 表现突出。我们还探讨了 Chain-of-Thought 提示、角色扮演提示、选项顺序和温度对 LLM 可靠性的影响，并分析了对不同 LLM 的不同效果。

Jun, 2024