MathBench:利用分层数学基准评估 LLMs 的理论和应用水平
最近大型语言模型 (LLM) 在许多数学基准上取得显著进展,但大多数基准只涉及初高中科目的问题和多项选择题,且仅限于有限范围的基本算术操作。为解决这些问题,本文引入了一个广泛的基准套件 SciBench,旨在系统地检验复杂科学问题解决所需的推理能力。SciBench 包含两个精心策划的数据集:一个开放集,包含从数学、化学和物理教科书中提取的多领域的大学级科学问题;一个封闭集,包含了计算机科学和数学本科考试中的问题。基于这两个数据集,我们对两个代表性 LLM 进行了深入的基准研究,采用多种提示策略。结果表明,当前 LLM 的表现不尽如人意,综合得分仅为 35.80%。此外,通过详细的用户研究,我们将 LLM 的错误归类为十种问题解决能力。我们的分析表明,没有一种单一的提示策略明显优于其他策略,而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计 SciBench 将催生 LLM 的推理能力进一步发展,从而最终促进科学研究和发现。
Jul, 2023
借鉴心理测量学的知识,提出了一种新的基于心理测量的大型(多模态)语言模型(LLMs)评测框架 - PATCH。通过使用该框架,测量了 GPT-4 和 Gemini-Pro-Vision 在 8 年级数学中的熟练程度,并且与 56 个人口进行了比较。同时发布了四个数据集,用于评估和比较 LLM 在中小学数学和科学方面的熟练程度与人口的水平。
Apr, 2024
本研究介绍了 ConceptMath,它是一个双语(英文和中文)的细粒度基准,用于评估大型语言模型的概念级数学推理能力。与评估一般数学推理平均准确率的传统基准不同,ConceptMath 通过将数学问题按照数学概念的层次进行系统组织,从而可以用概念级准确率评估数学推理能力的不同细粒度。在基于我们的 ConceptMath 的基础上,我们评估了广泛范围的大型语言模型,并观察到现有的大型语言模型尽管在传统基准上具有高平均准确率,但在不同数学概念上存在显著的性能差异,甚至在最基本的概念上可能出现灾难性失误。此外,我们还介绍了一种高效的微调策略,以提高现有大型语言模型的弱点。最后,我们希望 ConceptMath 能够指导开发人员了解其模型的细粒度数学能力,并促进基础模型的进一步发展。
Feb, 2024
为了评估大型语言模型(LLMs)在商业情报领域中数据分析能力方面的表现,研究引入了 BIBench,一种全面的基准测试。BIBench 评估 LLMs 在商业情报基础知识、知识应用和技术技能三个维度上的能力,并且包含 11 个子任务。另外,研究还开发了 BIChat,一个包含百万个数据点的领域特定数据集,用于对 LLMs 进行优化。通过提供一种对 LLMs 能力进行深入分析的度量标准,BIBench 旨在推动 LLMs 在数据分析领域的发展。
Jan, 2024
计算机科学(CS)是人类智能复杂性的证明,深刻推动了人工智能和现代社会的发展。我们引入 CS-Bench,这是第一个专门用于评估 LLM 在计算机科学领域性能的双语(中英文)基准,包括大约 5K 个精心策划的测试样本,涵盖计算机科学的 4 个关键领域的 26 个子领域,包括各种任务形式和知识推理的划分。利用 CS-Bench,我们对 30 多个主流 LLM 进行了全面评估,揭示了 CS 性能与模型规模之间的关系,并定量分析了现有 LLM 失败的原因,并强调了知识补充和 CS 特定推理等改进方向。进一步的跨能力实验显示 LLM 在计算机科学领域能力与数学和编码能力之间存在高度相关性。此外,专注于数学和编码的专家 LLM 在几个 CS 子领域也表现出强大的性能。展望未来,我们预见 CS-Bench 将成为 LLM 在 CS 领域应用的基石,并为评估 LLM 的多样化推理能力开辟新的途径。CS-Bench 的数据和评估代码可在此 https URL 上找到。
Jun, 2024
大型语言模型在法律领域的能力评估中,提出了全面评估基准 LawBench,并经过广泛测试发现 GPT-4 是在法律领域表现最好的模型,但还有很大提升空间。
Sep, 2023
通过对大型语言模型进行广泛的问题变体测试,我们评估了它们的数学推理能力的鲁棒性。结果表明,虽然这些模型在数学推理能力上表现出不同水平,但它们的性能远非稳健。
Feb, 2024
最近的大型语言模型 (LLMs) 的进展显著增强了它们的编码能力。然而,现有的基准主要关注编程的简化或隔离方面,如单文件代码生成或存储库问题调试,无法全面衡量真实世界编程活动引发的各种挑战。为此,我们提出了 DevBench,这是一个全面的基准,评估 LLMs 在软件开发生命周期的各个阶段,包括软件设计、环境设置、实施、验收测试和单元测试。DevBench 涵盖了广泛的编程语言和领域,具备高质量的数据收集,并为每个任务设计和验证了仔细设计的指标。经验证实证研究表明,包括 GPT-4-Turbo 在内的当前 LLMs 未能解决 DevBench 中提出的挑战。分析显示,模型在理解存储库中的复杂结构、管理编译过程和掌握高级编程概念方面存在困难。我们的发现为未来 LLMs 的真实世界编程应用的发展提供了可行的洞察。我们的基准可以在此 https URL 获取。
Mar, 2024
本文介绍了一个新的基准数据集 JEEBench,用于评估 Large Language Models 的问题解决能力,其中包含了 450 个有挑战性的预工程数学、物理和化学问题。本文对 GPT 系列模型进行了评估,发现即使使用 Self-Consistency 和 Chain-of-Thought prompting 等技术,GPT4 的最佳表现仍不到 40%,错误的代数运算和缺乏相关领域知识是造成表现不佳的主要原因。作者希望这个基准数据集能够引导未来使用 Large Language Models 进行问题解决的研究。
May, 2023
针对大型语言模型(LLMs)的可解释性低,现有的评估系统主要考察问题解决能力而忽视了响应的不确定性,为此提出了 UBENCH,一个全面评估 LLM 可靠性的基准,包括了 3,978 个多项选择题,实验结果表明 UBENCH 取得了最先进的性能,同时与需要多次采样的基准方法相比,其单次采样方法显著节省了计算资源。此外,基于 UBENCH,我们评估了 15 个热门的 LLM 的可靠性,发现 GLM4 和 GPT-4 表现突出。我们还探讨了 Chain-of-Thought 提示、角色扮演提示、选项顺序和温度对 LLM 可靠性的影响,并分析了对不同 LLM 的不同效果。
Jun, 2024